Spark RDD中两种算子之一:常见Action算子小结

**RDD:**弹性分布式数据集,是一种特殊集合,支持多来源,有容错机制,可以被缓存,支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种算子:1.Transformation(转换):属于延迟Laz...

2022-12-10 241 阅读

Spark on YARN

前言Spark 可以跑在很多集群上,比如跑在local上,跑在Standalone上,跑在Apache Mesos上,跑在Hadoop YARN上等等。不管你Spark跑在什么上面,它的代码都是一样的,区别只是–master的...

2022-12-10 234 阅读

解决spark on yarn每次都传递一堆jars的问题

问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/li...

2022-12-10 294 阅读

hive和spark读取kudu表

从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler at java.net.URLC...

2022-12-10 373 阅读

[Spark SQL]Spark SQL读取Kudu,写入Hive

SparkUnitFunction:用于获取Spark Session package com.example.unitl import org.apache.spark.sql.SparkSession object SparkUnit { def getLocal(appName: String): SparkSession = { ...

2022-12-10 286 阅读

SPARK-SQL内置函数之时间日期类

转载请注明转自:http://www.cnblogs.com/feiyumo/p/8760846.html 一、获取当前时间 1.current_date获取当前日期 2018-04-09 2.current_timestamp/now()获取当前时间 2018-04-09 15:20:49.2...

2022-12-10 435 阅读

重点---版本问题-Spark中的一次ClassNotFoundException排除

前阵子,我把实验室小集群上的spark从2.0.0升级到了2.1.1,当时直接排除掉了一个hdfs-site.xml文件不一致的错误(估计这是2.0.0版本的一个BUG),而且跑了一下测试代码,一切OK。 可是,今天...

2022-12-10 313 阅读

指定列的Spark sql问题

由于Spark SQL不支持insert语句中的列列表,因此出现此错误。所以从insert语句中排除列列表。 下面是我的hive表: 0: jdbc:hive2://hpchdd2-zk-1.hpc.ford.com:218> select * from UDB...

2022-12-10 365 阅读

WPF中使用代码触发按钮事件。

1.bt1.RaiseEvent(new RoutedEventArgs(Button.ClickEvent)); 问题:这样调用按钮事件有可能引发错误:调用线程无法访问此对象,因为另一个线程拥有该对象。 2.解决方法 这个问题出现的原因...

2022-12-10 647 阅读

java 如何在Java应用中提交Spark任务?

https://www.cnblogs.com/xing901022/p/8538713.html

2022-12-10 358 阅读