
大数据相关——DataX(一 概述以及部署)
DataX的介绍和部署
目录
1 概述
DataX是一个异构数据源离线同步工具,实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
2 设计理念
各个数据源之间可以通过DataX去对接。
3 框架设计
采用Framework + plugin架构构建,将数据源读取和写入抽象为Reader/Wrier插件,纳入到整个同步框架。
FrameWork: 连接reader和writer ,作为传输通道,同时处理缓冲,流控,并发,数据转换等问题。
4 DataX运行流程
Job:一个数据同步的作业,启动一个进程。
Task:Job可以切分(分库分表切分策略)为多个Task,Task是DataX作业最小的单元,每个task负责一部分数据同步的任务。(Task以Reader-Channel-Writer线程完成同步)
Schedule:Task分组( 总并发度channel,每个TaskGroup组并发度最大5,组数= 总并发channel / 5,每个组多少个task = 总task / 组数)。
TaskGroup:Task组,负责并发Task任务,每个组并发度最大5。
5 DataX和Sqoop对比
6 部署
注意:本部署是在虚拟机环境下,CentOS7
(1) 下载安装包,上传至虚拟机,创建一个文件夹,放在文件夹下面。
下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
(2)解压缩到指定的文件夹(建议和安装包分开)
(3)执行命令,出现以下界面表示成成功。
python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json
更多推荐
所有评论(0)