SparkSQL访问Hive遇到的问题及解决方法

需要先将hadoop的core-site.xml,hive的hive-site.xml拷贝到project中测试代码def main(args: Array): Unit = { val spark: SparkSession = SparkSession .builder() .appName(...

2022-12-10 488 阅读

apache org.apache.thrift.transport.TTransportException: null

问题描述 每次client调用server端,均有正常返回,但是server端还会多打出一些异常信息,如下。 org.apache.thrift.transport.TTransportException: null at org.apache.thrift.trans...

2022-12-10 625 阅读

spark sql连接hive(local方式)---自测通过

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version></dependenc...

2022-12-10 309 阅读

kafka sparkstreaming kafka(local方式)--自测通过

    <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <version>0.11.0.0</version&g...

2022-12-10 405 阅读

关于IDEA破解后无法启动问题

1.错误的使用 破解插件后导致idea不能正常启动技术小白记录下自己的踩坑史自己使用的idea2020.1.2,tb平台购买破解插件包破解后两天就失效,再次破解时idea重启卡死在加载页面,任务管理器杀...

2022-12-10 875 阅读

批量计算和流式计算

一、数据集类型 现实世界中,所有的数据都是以流式的形态产生的,不管是哪里产生的数据,在产生的过程中都是一条条地生成,最后经过了存储和转换处理,形成了各种类型的数据集。如下图所示...

2022-12-10 543 阅读

MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。 Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的va...

2022-12-10 289 阅读

linux Linux系统之pssh系列工具的使用

  一、pssh简介及安装   首先我们来了解下什么是pssh,它是干嘛用的?pssh是一个python编写可以在多台服务器上执行命令的工具,也可以实现文件复制。换而言之就是一个批量管理多台服务...

2022-12-10 581 阅读

Spark学习之路Spark之RDD

一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD...

2022-12-10 320 阅读