大数据 – java开发笔记

idea本地运行flink程序时启用web ui（8081端口）

2025-10-16 13:31

|

201

|

0

|

fink,中间件,大数据

9 字

|

几秒读完

// IDEA运行时，也可以看到webui，一般用于本地测试 //创建带有 web uI 的本地执行环境 Configuration config =new Configuration(); config.setBoolean("web.ui.enabled&…

实战！用 Flink 打通 Kafka 到 MySQL 的数据链路，附完整代码

2025-10-16 10:30

|

263

|

0

|

fink,kafka,中间件,大数据

2998 字

|

14 分钟

实战！用 Flink 打通 Kafka 到 MySQL 的数据链路，附完整代码在实时数据处理场景中，“Kafka 接收数据 + Flink 处理数据 + MySQL 存储结果” 是非常经典的架构。比如用户行为日志实时统计、订单数据实时同步等场景，都离不开这套流程。今天就带大家从零搭建这套数据链路，包含完整的依赖配置、代码实现和环境准备，新…

Apache atlas liunx环境安装部署手册

2025-5-23 14:57

|

611

|

0

|

Apache atlas,大数据

431 字

|

2 分钟

一、背景本文使用一台ubuntu虚拟机安装Apache-atlas，使用集成包unzip apache-atlas-2.1.0.zip进行快速安装部署，该集成包高度集成了hadoop、hbase、solr等关键程序，无需额外部署它们。通过下述安…

DolphinScheduler 3.2.0（海豚调度）安装部署

2025-5-23 11:08

|

589

|

0

|

DolphinScheduler,大数据

350 字

|

2 分钟

Zookeeper 安装1、下载安装包wget https://downloads.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz2、解压安装包，并存放到制定目录下 tar -xzf apache-zook…

安装Oozie的x详细步骤

2025-5-23 11:06

|

536

|

0

|

Oozie,大数据

1294 字

|

6 分钟

一、前提条件Java环境Oozie是基于Java开发的，所以需要先安装Java Development Kit（JDK）。确保系统中已经安装了合适版本的JDK，推荐使用JDK 8或者更高版本。可以通过在终端中输入java -version命令来检查Java是否已经安装以及其版本信息。Hadoop环境Oozie通常用于与Hadoop协同工作…

Spring Boot 项目中集成 Kafka 和 Flink：构建实时数据流处理系统

2024-5-15 16:26

|

835

|

0

|

fink,kafka,springboot,大数据

529 字

|

3 分钟

导语：在现代数据处理中，Spring Boot 项目集成 Kafka 和 Flink 流处理框架是实现实时数据处理和分析的关键。本文将为您介绍具体步骤和相关代码，帮助您在项目中快速集成 Kafka 和 Flink。 &nbs…

Kylin 的安装和启动

2023-11-03 13:49

|

712

|

0

|

Kylin,大数据

383 字

|

2 分钟

Kylin 依赖环境安装 Kylin 前需先部署好 Hadoop、Hive、Zookeeper、Hbase、Spark，并且需要在/etc/profile 中配置以下环境变量 HADOOP_HOME，HIVE_HOME，HBASE_HOME，SPARK_HOME 记得 source 使其生效。Hadoop，Hive，Spark安装Zoo…

apache kylin概述

2023-11-03 10:16

|

556

|

0

|

Kylin

242 字

|

2 分钟

1 Kylin是什么在大数据处理技术领域，用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果，同时也希望传统的商务智能工具能够直接和大数据平台连接起来，以便使用这些工具做数据分析。目前已经出现了很多优秀的SQL on Hadoop引擎，包括Hive、Impala及 SparkSQL等，这…

6、Flink的常用Sink

2023-11-03 10:13

|

630

|

0

|

fink,大数据

2645 字

|

11 分钟

1.1 Data Sink 数据输出经过一系列Transformation转换操作后，最后一定要调用Sink操作，才会形成一个完整的DataFlow拓扑。只有调用了Sink操作，才会产生最终的计算结果，这些数据可以写入到的文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是打印到控制台。1.1.1&n…

5、Flink本地模式添加web页面

2023-11-03 10:12

|

600

|

0

|

fink,大数据

353 字

|

2 分钟

将flink提交到集群中运行，可以看到job的的执行计划、占用的资源情况、Task的数量和并行度、内存、checkpoint等信息。但是将必须先job打成jar包，然后通过web页面或命令行提交到集群中执行。但是在开发测试时，想要看到job的执行计划和运行时的一些信息，就需要每一次都将程序打包并提交到集群中运行，这样就很麻烦。如果能在IE…

分类： 大数据

分类：大数据