【手把手教学】Hadoop 3.3.1安装配置全攻略:5分钟搞定大数据环境搭建!
立即动手实践吧!遇到问题欢迎在评论区留言,我会一一解答。
为什么每个大数据开发者都要掌握Hadoop安装?
在大数据时代,Hadoop已成为处理海量数据的核心技术框架。作为初学者,正确安装和配置Hadoop是迈向大数据开发的第一步。本文将带你完整走过Hadoop 3.3.1的安装全流程,让你轻松搭建自己的大数据实验环境!
准备工作:安装包获取
首先确保你已经下载了Hadoop 3.3.1的安装包(hadoop-3.3.1.tar.gz)。可以通过官网或镜像站点下载:
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.1/hadoop-3.3.1.tar.gz
6步极简安装法
第一步:上传安装包
将下载好的安装包上传到服务器指定目录,推荐使用/opt/software目录存放安装包:
mkdir -p /opt/software
# 通过FTP工具或scp命令上传hadoop-3.3.1.tar.gz到此目录
第二步:解压安装包
使用tar命令解压到安装目录:
tar -zxvf /opt/software/hadoop-3.3.1.tar.gz -C /opt/installs/
参数说明:
-
-z:处理gzip压缩文件 -
-x:解压文件 -
-v:显示解压过程 -
-f:指定文件 -
-C:指定解压目标目录
第三步:目录重命名(可选但推荐)
为方便后续管理,建议将解压后的目录重命名为简单名称:
cd /opt/installs/
mv hadoop-3.3.1 hadoop
第四步:配置环境变量
这是最关键的一步!编辑/etc/profile文件:
vi /etc/profile
在文件末尾添加以下内容:
# Hadoop Environment Variables
export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
第五步:使配置生效
执行以下命令让环境变量立即生效:
source /etc/profile
第六步:验证安装
检查Hadoop是否安装成功:
hadoop version
成功安装后会显示类似以下信息:
Hadoop 3.3.1
Source code repository https://github.com/apache/hadoop.git -r a369c373397ada1880418804ld806
Compiled by ubuntu on 2021-06-15T05:13Z
Compiled with protoc 3.7.1
避坑指南:新手常见问题
-
权限问题:
-
确保对
/opt/installs目录有写入权限 -
可使用
sudo chmod -R 755 /opt/installs修改权限
-
-
环境变量不生效:
-
检查是否执行了
source /etc/profile -
确认PATH变量设置正确
-
-
Java环境缺失:
-
Hadoop依赖Java环境,需提前安装JDK 8+
-
通过
java -version验证Java是否安装
-
-
安装包损坏:
-
下载完成后检查MD5值:
-
md5sum hadoop-3.3.1.tar.gz
为什么选择Hadoop 3.3.1?
作为当前稳定版本,Hadoop 3.x系列相比2.x有显著改进:
-
支持EC(Erasure Coding)存储策略,节省50%存储空间
-
最低Java版本要求提升到Java 8
-
HDFS支持多达16个NameNode
-
YARN时间服务(Timeline Service)v2
-
支持Docker容器化部署
下一步:配置伪分布式集群
完成基础安装后,你可以继续配置伪分布式环境:
-
修改
core-site.xml配置HDFS地址 -
配置
hdfs-site.xml设置副本数 -
设置SSH免密登录
-
格式化NameNode并启动集群
hdfs namenode -format
start-dfs.sh
通过这简单的6个步骤,你已经成功搭建了Hadoop单机环境。这为你后续学习HDFS、MapReduce、YARN等核心组件奠定了坚实基础。记住,每个大数据专家都是从这一步开始的!
案例一:WordCount词频统计
WordCount是大数据领域的"Hello World",让我们看看如何实现:
首先在/home目录下创建测试文件:
touch /home/wc.txt
编辑wc.txt文件,内容如下:
hello world spark flink
hello laoyan 2202 laolv
hello suibian suibian hello
运行WordCount程序:
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output
这个命令的含义是:
hadoop jar:执行一个jar包
后面跟着的是示例jar包路径
wordcount:指定运行词频统计程序
/home/wc.txt:输入文件路径
/home/output:输出目录
查看结果:
cat /home/output/*
输出结果会显示每个单词的出现次数:
1 2202
1 flink
4 hello
1 laolv
1 laoyan
1 spark
2 suibian
1 world
注意:如果输出目录已存在,会报错FileAlreadyExistsException,需要先删除旧目录或指定新目录。
案例二:计算圆周率PI
Hadoop还提供了计算圆周率的示例:
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 100
参数说明:
-
10:代表10个map任务 -
100:每个任务进行100次采样
这个示例使用蒙特卡洛方法估算π值,通过统计随机点在单位圆内的比例来计算。
结语:开启你的大数据之旅
立即动手实践吧! 遇到问题欢迎在评论区留言,我会一一解答。如果你觉得这篇教程有帮助,请点赞收藏支持!
更多推荐


所有评论(0)