1.1 Data Source数据源在实时计算DataStream API中,Source是用来获取外部数据源的操作,按照获取数据的方式,可以分为:基于集合的Source、基于Socket网络端口的Source、基于文件的Source、第三方Connector Source和自定义Source五种。前三种S…
1 Flink编程入门1.1 初始化Flink项目模板1.1.1 准备工作要求安装Maven 3.0.4 及以上版本和JDK 81.1.2 使用maven命令创建java项目模板执行maven命令,如果maven本地仓库没有依赖的jar,需要有网络mvn archetype:generat…
1、standalone模式搭建standalone模式是Flink自带的分布式集群模式,不依赖其他的资源调度框架;这里使用三台主机搭建,86可以免密登录到88、89:172.17.28.86 cs-28-86172.17.28.88 cs-28-88172.17.28.89 &n…
这几年,在整个大数据领域,Flink可算是火得一塌糊,不但将阿里Blink中的大部分特性merge到社区的Flink中,使得Flink在流式实时计算领域更是一骑绝尘,让其他实时计算框架只能望其项背,目前Flink根本经看不到其他的对手!同时Flink新版本又完美的兼容Hive,使得Flink在离线计算也快马加鞭,飞速赶超,完美实现批流统一…
ClickHouse是一款开源的列式数据库管理系统,专为大规模数据仓库和数据分析应用而设计。它允许用户快速地存储和处理海量数据,同时提供了简单易用的SQL接口。本文将介绍ClickHouse的概念、技术原理以及使用案例,并探讨其优势和挑战。一、引言随着数据量的不断增长,传统的关系型数据库在处理大规模数据时遇到了性能瓶颈。而ClickHou…
Apache DolphinScheduler 是一个大数据调度任务框架。从当前的CSDN的GitCode的热度来看,其在二月份排名第6位。那是相当的热门的。Apache DolphinScheduler 是Apache旗下的开源项目,目前已经被Fork了2700次,Star了7300次;这还是相当厉害了!其是一个云原生的可视化的大数据工…
1、数据采集框架 ----------------------------------------------------------------------2、数据存储框架------------------------------------------------------------…
大家好,又见面了,我是你们的朋友全栈君。介绍kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。kettle 的官网是 https://community.hitachivantara.com/docs/DOC-10…
一、 kettle--spoon的安装kettle安装官网https://sourceforge.net/projects/pentaho/files/Data%20Integration/下载完解压就好。然后按以下步骤使用即可。二、使用1、启动进入安装路径/data-integration下双击Spoon.bat,即可进入spoon的主…
一、集群搭建基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群https://blog.csdn.net/llwy1428/article/details/111569392官网教程http://spark.apache.org/docs/latest/quick-start.html二、spark-shell 实…