分类: 大数据

37 篇文章

实战!用 Flink 打通 Kafka 到 MySQL 的数据链路,附完整代码​
实战!用 Flink 打通 Kafka 到 MySQL 的数据链路,附完整代码在实时数据处理场景中,“Kafka 接收数据 + Flink 处理数据 + MySQL 存储结果” 是非常经典的架构。比如用户行为日志实时统计、订单数据实时同步等场景,都离不开这套流程。今天就带大家从零搭建这套数据链路,包含完整的依赖配置、代码实现和环境准备,新…
Apache atlas liunx环境安装部署手册
一、        背景本文使用一台ubuntu虚拟机安装Apache-atlas,使用集成包unzip apache-atlas-2.1.0.zip进行快速安装部署,该集成包高度集成了hadoop、hbase、solr等关键程序,无需额外部署它们。通过下述安…
安装Oozie的x详细步骤
一、前提条件Java环境Oozie是基于Java开发的,所以需要先安装Java Development Kit(JDK)。确保系统中已经安装了合适版本的JDK,推荐使用JDK 8或者更高版本。可以通过在终端中输入java -version命令来检查Java是否已经安装以及其版本信息。Hadoop环境Oozie通常用于与Hadoop协同工作…
Kylin 的 安装 和 启动
Kylin 依赖环境安装 Kylin 前需先部署好 Hadoop、Hive、Zookeeper、Hbase、Spark,并且需要在/etc/profile 中配置以下环境变量 HADOOP_HOME,HIVE_HOME,HBASE_HOME,SPARK_HOME 记 得 source 使其生效。Hadoop,Hive,Spark安装Zoo…
apache kylin概述
1 Kylin是什么在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,同时也希望传统的商 务智能工具能够直接和大数据平台连接起来,以便使用这些工具做数据分析。目前已经出现了很多优秀的SQL on Hadoop引擎 ,包括Hive、Impala及 SparkSQL等,这…
6、Flink的常用Sink
1.1 Data Sink 数据输出经过一系列Transformation转换操作后,最后一定要调用Sink操作,才会形成一个完整的DataFlow拓扑。只有调用了Sink操作,才会产生最终的计算结果,这些数据可以写入到的文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是打印到控制台。1.1.1&n…
5、Flink本地模式添加web页面
将flink提交到集群中运行,可以看到job的的执行计划、占用的资源情况、Task的数量和并行度、内存、checkpoint等信息。但是将必须先job打成jar包,然后通过web页面或命令行提交到集群中执行。但是在开发测试时,想要看到job的执行计划和运行时的一些信息,就需要每一次都将程序打包并提交到集群中运行,这样就很麻烦。如果能在IE…