java开发笔记 - java开发笔记

kafka kafka官方的kafka-server-start.sh不能关闭kafka进程解决办法

vi kafka-server-stop.sh 把PIDS=$(ps ax | grep -i 'kafka\.Kafka' | grep java | grep -v grep | awk '{print $1}')这行代码修改为 PIDS=$(jps -lm | grep -i 'kafka.Kafka' | awk...

2022-12-10 674 阅读

linux linux突然所有命令都失效了，显示bash: xxxxx: command not found...

出现这个问题是因为系统的环境变量没有正确配置造成的，造成这个原因有很多，比如系统升级，比如不正当操作。解决的方式有两种。其一：直接在linux命...

2022-12-10 424 阅读

sparkStreaming结合SparkSql实例

SparkSQL结合SparkStreaming的使用 Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多...

2022-12-10 521 阅读

spring spring boot 集成spark-streaming-kafka

主要思路：SparkContext由spring容器管理，在spring容器启动完毕后，执行spark-streaming-kafka，获取数据并处理。 1.spring容器中初始化SparkContext，代码片段如下： @Bean @ConditionalO...

2022-12-10 852 阅读

spring 使用springboot构建rest api远程提交spark任务

github代码链接：github地址 1. spark集群及版本信息服务器版本：centos7hadoop版本：2.8.3spark版本：2.3.3使用springboot构建rest api远程提交spark任务，将数据库中的表数据存储到hdfs上...

2022-12-10 700 阅读

Spark启动时的master参数以及Spark的部署方式

我们在初始化SparkConf时，或者提交Spark任务时，都会有master参数需要设置，如下： conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/s...

2022-12-10 546 阅读

Spark-submit模式yarn-cluster和yarn-client的区别

1.yarn-client用于测试，因为ta的Driver运行在本地客户端，会与yarn集群产生较大的网络通信，从而导致网卡流量激增；它的好处在于直接执行时，在本地可以查看到所有的log，方便调试；2.yarn-...

2022-12-10 313 阅读

Idea开发Spark直接以yarn-cluster模式提交到Ambari集群的解决方案

一.背景介绍许多中小型企业使用Ambari去管理自己的大数据集群，以Spark作为主要的计算框架去实现数据的分析。通用的Spark的开发调试流程是往往需要以下流程： Idea上进行开发，并使用spark l...

2022-12-10 494 阅读

java java spark 消费kafka_spark2.3 消费kafka数据

官网介绍 http://spark.apache.org/docs/2.3.0/streaming-kafka-0-10-integration.html#creating-a-direct-stream 案例pom.xml依赖 <dependency> <groupId>o...

2022-12-10 626 阅读

java java连接kafka测试

①进入到kafka文件夹中修改配置文件：vim config/server.properties ②启动zookeeper： bin/zookeeper-server-start.sh config/zookeeper.properties 端口2181是Z...

2022-12-10 1163 阅读

归档