Hadoop数据分析平台搭建
一.配置安装环境1> 在虚拟机Vmware上搭建三台Red Hat Enterprise linux,其中一台为master,另外两台位slaves。2> 下载相关的软件,如java jdk、hadoop-0.20.2等。二.安装和配置步骤1> 要是hadoop能过正常的免密码在各个节点中连接传输数据,最重要的是配置SSH,生成密钥。2> jdk的安装...
一.配置安装环境
1> 在虚拟机Vmware上搭建三台Red Hat Enterprise linux,其中一台为master,另外两台位slaves。
2> 下载相关的软件,如java jdk、hadoop-0.20.2等。
二.安装和配置步骤
1> 要是hadoop能过正常的免密码在各个节点中连接传输数据,最重要的是配置SSH,生成密钥。
2> jdk的安装,修改/etc/profile文件。
3> hadoop安装,同时也要修改hadoop下conf目录下的core-site.xml、hdfs-site.xml和mapred-site.xml三个核心文件。
4> 最后是格式化HDFS和启动hadoop。
三.Hadoop数据分析平台
v 1>查看hadoop集群
结果如下图所示,其中master为Namenode,JobTracker,SecondaryNamenode。在这里就需说下上面三个单词的意思。
Namenode:是HDFS的守护进程。记录文件时如何分割成数据块的,以及这些数据块被存储在哪些节点上,同时Namenode是个单点,发生故障会是集群崩溃。
SecondaryNamenode:是监控HDFS状态的辅助后台程序,每个集群都有一个,它的作用是当Namenode故障时可以作为备用Namenode使用。但需要手动切换。
JobTracker:是用于处理作业的后台程序,决定哪些文件参与处理,然后切割task并分配节点,每个集群只有一个JobTracker且位于master上。
Master:
slave1和slave2:
其中slaves上只有DataNode和TaskTracker
DataNode:负责把HDFS数据块读写到本地文件系统中。
TaskTrecker:管理各自节点上的task。
由上图可知在这个集群中有三个节点,其中一个master,两个slaves。
下图显示的是NaneNode,可以看到的信息是:
这个集群总共的容量是Configured Capacity : 46.32G
DFS使用了 DFS Used : 84 KB
存在的节点数是 Live Nodes : 3
v 2> 测试hadoop集群
通过运行wordcount这个功能来测试,看上图可以只map和reduce的完成度,
得知已经成功运行了一次作业Completed Jobs。
转载于:https://blog.51cto.com/duwolfde/1283920
更多推荐
所有评论(0)