@Scheduled并行执行

spring自带的任务调度是串行执行的,串行执行什么意思呢?就是第一个方法执行完成之后才会执行第二个方法.举个栗子:要是我两个方法都是每一秒执行一次,第一个方法执行时间比较长,那么第二个方...

2022-12-10 342 阅读

Spark(四)Spark之Transformation和Action

Transformation算子 基本的初始化 java static SparkConf conf = null; static JavaSparkContext sc = null; static { conf = new SparkConf(); conf.setMaster("local").setApp...

2022-12-10 301 阅读

Spark(五)Spark任务提交方式和执行流程

一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控...

2022-12-10 464 阅读

Spark(六)Spark之开发调优以及资源调优

Spark调优主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,...

2022-12-10 259 阅读

Spark(七)Spark内存调优

一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本...

2022-12-10 269 阅读

Spark(九)Spark之Shuffle调优

一、概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进...

2022-12-10 241 阅读

Spark(八)JVM调优以及GC垃圾收集器

  一JVM结构 1 Java内存结构 JVM内存结构主要有三大块:堆内存、方法区和栈。 堆内存是JVM中最大的一块由年轻代和老年代组成,而年轻代内存又被分成三部分,Eden空间、From Survivor空...

2022-12-10 346 阅读

Spark(十一)Spark分区

一、分区的概念   分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任...

2022-12-10 344 阅读

Spark(十二)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前:   Shark 1.1.x开始:SparkSQL(只是测试性的)  SQL 1.3.x:          SparkSQL(正式版本)+Dataframe 1.5.x:&...

2022-12-10 305 阅读

Spark(十三)SparkSQL的自定义函数UDF与开窗函数

一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined A...

2022-12-10 320 阅读