分类: 大数据

37 篇文章

【Spark】Spark On Yarn 安装
一、下载和解压https://archive.apache.org/dist/spark/spark-2.3.1/tar zxv -f spark-2.3.1-bin-hadoop2.7.tgz mv spark-2.3.1-bin-hadoop2.7/ spark-2.3.1二、配置2.…
Hadoop之Spark集群安装配置
1.  安装模式    1.  本地模式        仅在一台计算机上安装Spark      2.  集群模式        Standalone  独立部署模式,该模式下系统采用Spark自带的简单集群管理器,不依赖第三方提供的集群管理器        Hadoop Yarn  使用hadoop2.0以上版本中的Yarn充当资源管理…
大数据 – Java实现提交作业到Hadoop集群
windows环境IntelliJ IDEAJDK1.8hadoop-2.8.5.tar.gz从官网上下载解压配置JDK,Hadoop https://hadoop.apache.org/releases.html 下载2.8.5版本Binary download并解压到自己喜欢的目录下。配置windows环境变量Java环境变量就不写了…
Nutch简介
Nutch简介原文出处:http://www.sanesee.com/Nutch作为当今最流行的开源爬虫之一,已被企业广泛使用。Nutch的插件机制使得开发者可以灵活地定制网页抓取策略。Nutch有着悠久的历史,当今大名鼎鼎的Hadoop就是由Nutch发展而来。Nutch不仅可以运行在单机模式下,还可以运行在分布式模式下。1 认识Nut…
大数据Hadoop生态圈介绍
大数据Hadoop生态圈-组件介绍    Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。    Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:  …
​(四)hive的搭建2
在(三)hive的搭建1中我们搭建好了hive环境,但是只能本地访问,在本节中配置Hive的访问方式。1.元数据服务的方式1.1 编辑hive-site.xml sudo vi hive-site.xml在文件最后增加以下内容<!-- 指定存储元数据要连接的地址 -->    …
​(三)hive的搭建1
下载访问官方网站https://hive.apache.org/点击downloads点击Download a release now!点击https://dlcdn.apache.org/hive/选择最新的稳定版复制最新的url在linux执行下载命令wget  https://dlcdn.apache.org/h…
(二)hadoop搭建
1. 下载 访问https://hadoop.apache.org/releases.html查看hadoop最新下载地址wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz2.解压tar zxvf hadoo…