kafka spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql

spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql. 数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。 每天k...

2022-12-10 548 阅读

Unable to instantiate SparkSession with Hive support because Hive classes are not found.

写一个maven模块的时候出现了这样一个Exception: Exception in thread "main" java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive c...

2022-12-10 491 阅读

kafka sparkstreaming 实时读取kafka写入hive优化(高流量)

背景: kafka流量在800M/s,前任留下的程序大量数据丢失,且逻辑生成复杂,查询hive直接奔溃,优化从两方面,程序优化及小文件合并(生成结果产生大量小文件) 程序直接上代码,啥也不说了 程...

2022-12-10 517 阅读

Kubernetes Spark on K8S (Kubernetes Native)

Spark on K8S 的几种模式 Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提...

2022-12-10 567 阅读

Impala原理及其调优

Impala支持的文件格式 Impala可以对Hadoop中大多数格式的文件进行查询。它能通过create table和insert的方式将一部分格式的数据加载到table中,但值得注意的是,有一些格式的数据它是无法写...

2022-12-10 332 阅读

Spark认识&环境搭建&运行第一个Spark程序

摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个...

2022-12-10 360 阅读

Spark任务提交方式和执行流程

转自:http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark集群模式概述 Spark 应用在集群上作为独立的进程组来运行,在您的main程序中通过SparkContext来协调(称之为driver程序)...

2022-12-10 496 阅读

Llama-impala on yarn的中间协调服务

本文基于CDH发行版下的Hadoop Yarn和Impala   早期的Impala版本中,为了使用Impala,我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-...

2022-12-10 329 阅读

java spark sql在scala与java中的代码实现

在编写spark sql代码前,需要新建maven工程,将hadoop下的配置文件core-site.xml和hdfs-site.xml,以及hive中的hive-site.xml拷贝到工程的resource目录下,并在pom.xml中配置jar包信息。 pom....

2022-12-10 356 阅读

SQL执行计划详解explain

1.使用explain语句去查看分析结果 如explain select * from test1 where id=1;会出现:id selecttype table type possible_keys key key_len ref rows extra各列。 其中, type=...

2022-12-10 423 阅读