java开发笔记 - java开发笔记

java spark2.x-java-用spark-sql和spark-streaming 统计网站的访客数(uv)

环境：spark2.2.0 JDK1.8 感觉网上关于spark2.0的java程序案例太少了，在这里补充一个，大家有好的案例也可以分享啊不多说，直接上代码 /** * @author admin * @define 统计网站日用户访问量...

2022-12-10 393 阅读

java 解决Exception in thread “main” java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerException

问题描述spark读取hdfs文件时候报错解决方法 <dependency> <groupId>org.codehaus.janino</groupId> <artifactId>janino</artifactId> <v...

2022-12-10 574 阅读

java Kafka 使用Java实现数据的生产和消费demo

前言在上一篇中讲述如何搭建kafka集群，本篇则讲述如何简单的使用 kafka 。不过在使用kafka的时候，还是应该简单的了解下kafka。 Kafka的介绍 Kafka是一种高吞吐量的分布式发布订阅消息系...

2022-12-10 550 阅读

java java8下spark-streaming结合kafka编程（spark 2.3 kafka 0.10）

前面有说道spark-streaming的简单demo，也有说到kafka成功跑通的例子，这里就结合二者，也是常用的使用之一。 1.相关组件版本首先确认版本，因为跟之前的版本有些不一样，所以才有必要记录...

2022-12-10 590 阅读

java JavaSpark-sparkSQL

入门起点：SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession，只需使用SparkSession.builder()： import org.apache.sp...

2022-12-10 387 阅读

java java 管理kafka偏移量_Kafka偏移量(Offset)管理

1.定义 Kafka中的每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号，用于partition唯一标识一条消息。 Offs...

2022-12-10 831 阅读

Spark 实现两表查询(SparkCore和SparkSql)

项目需求： ip.txt:包含ip起始地址，ip结束地址，ip所属省份 access.txt:包含ip地址和各种访问数据需求：两表联合查询每个省份的ip数量 SparkCore 使用广播，将小表广播到executor.对大表的...

2022-12-10 378 阅读

kafka spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql. 数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重。每天k...

2022-12-10 600 阅读

Unable to instantiate SparkSession with Hive support because Hive classes are not found.

写一个maven模块的时候出现了这样一个Exception： Exception in thread "main" java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive c...

2022-12-10 535 阅读

kafka sparkstreaming 实时读取kafka写入hive优化（高流量）

背景： kafka流量在800M/s,前任留下的程序大量数据丢失，且逻辑生成复杂，查询hive直接奔溃，优化从两方面，程序优化及小文件合并（生成结果产生大量小文件）程序直接上代码，啥也不说了程...

2022-12-10 582 阅读

归档