为什么每个大数据开发者都要掌握Hadoop安装?

在大数据时代,Hadoop已成为处理海量数据的核心技术框架。作为初学者,正确安装和配置Hadoop是迈向大数据开发的第一步。本文将带你完整走过Hadoop 3.3.1的安装全流程,让你轻松搭建自己的大数据实验环境!

准备工作:安装包获取

首先确保你已经下载了Hadoop 3.3.1的安装包(hadoop-3.3.1.tar.gz)。可以通过官网或镜像站点下载: 

wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.1/hadoop-3.3.1.tar.gz

6步极简安装法


第一步:上传安装包


将下载好的安装包上传到服务器指定目录,推荐使用/opt/software目录存放安装包:

mkdir -p /opt/software
# 通过FTP工具或scp命令上传hadoop-3.3.1.tar.gz到此目录

第二步:解压安装包

使用tar命令解压到安装目录:

tar -zxvf /opt/software/hadoop-3.3.1.tar.gz -C /opt/installs/

 

参数说明

  • -z:处理gzip压缩文件

  • -x:解压文件

  • -v:显示解压过程

  • -f:指定文件

  • -C:指定解压目标目录

第三步:目录重命名(可选但推荐)

为方便后续管理,建议将解压后的目录重命名为简单名称:

cd /opt/installs/
mv hadoop-3.3.1 hadoop

第四步:配置环境变量

这是最关键的一步!编辑/etc/profile文件:

vi /etc/profile

在文件末尾添加以下内容:

# Hadoop Environment Variables
export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

第五步:使配置生效


执行以下命令让环境变量立即生效:

source /etc/profile

第六步:验证安装


检查Hadoop是否安装成功:

hadoop version

成功安装后会显示类似以下信息:

Hadoop 3.3.1
Source code repository https://github.com/apache/hadoop.git -r a369c373397ada1880418804ld806
Compiled by ubuntu on 2021-06-15T05:13Z
Compiled with protoc 3.7.1

避坑指南:新手常见问题

  1. 权限问题

    • 确保对/opt/installs目录有写入权限

    • 可使用sudo chmod -R 755 /opt/installs修改权限

  2. 环境变量不生效

    • 检查是否执行了source /etc/profile

    • 确认PATH变量设置正确

  3. Java环境缺失

    • Hadoop依赖Java环境,需提前安装JDK 8+

    • 通过java -version验证Java是否安装

  4. 安装包损坏

    • 下载完成后检查MD5值:

md5sum hadoop-3.3.1.tar.gz

为什么选择Hadoop 3.3.1?

作为当前稳定版本,Hadoop 3.x系列相比2.x有显著改进:

  • 支持EC(Erasure Coding)存储策略,节省50%存储空间

  • 最低Java版本要求提升到Java 8

  • HDFS支持多达16个NameNode

  • YARN时间服务(Timeline Service)v2

  • 支持Docker容器化部署

下一步:配置伪分布式集群

完成基础安装后,你可以继续配置伪分布式环境:

  1. 修改core-site.xml配置HDFS地址

  2. 配置hdfs-site.xml设置副本数

  3. 设置SSH免密登录

  4. 格式化NameNode并启动集群

hdfs namenode -format
start-dfs.sh

通过这简单的6个步骤,你已经成功搭建了Hadoop单机环境。这为你后续学习HDFS、MapReduce、YARN等核心组件奠定了坚实基础。记住,每个大数据专家都是从这一步开始的!

案例一:WordCount词频统计

WordCount是大数据领域的"Hello World",让我们看看如何实现:

首先在/home目录下创建测试文件:

touch /home/wc.txt

编辑wc.txt文件,内容如下:

hello world spark flink
hello laoyan 2202 laolv
hello suibian suibian hello

运行WordCount程序:

hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output

这个命令的含义是:

hadoop jar:执行一个jar包

后面跟着的是示例jar包路径

wordcount:指定运行词频统计程序

/home/wc.txt:输入文件路径

/home/output:输出目录

查看结果:

cat /home/output/*

输出结果会显示每个单词的出现次数:


1   2202
1   flink
4   hello
1   laolv
1   laoyan
1   spark
2   suibian
1   world

注意:如果输出目录已存在,会报错FileAlreadyExistsException,需要先删除旧目录或指定新目录。

案例二:计算圆周率PI

Hadoop还提供了计算圆周率的示例:

hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 100

参数说明:

  • 10:代表10个map任务

  • 100:每个任务进行100次采样

这个示例使用蒙特卡洛方法估算π值,通过统计随机点在单位圆内的比例来计算。

结语:开启你的大数据之旅

立即动手实践吧! 遇到问题欢迎在评论区留言,我会一一解答。如果你觉得这篇教程有帮助,请点赞收藏支持!

 

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐