目录

1 概述

2  设计理念

 3 框架设计

4 DataX运行流程

5 DataX和Sqoop对比

6 部署


1 概述

DataX是一个异构数据源离线同步工具,实现包括关系型数据库(MySQLOracle)HDFSHiveODPSHBaseFTP等各种异构数据源之间稳定高效的数据同步功能。

2  设计理念

各个数据源之间可以通过DataX去对接。

 3 框架设计

采用Framework + plugin架构构建,将数据源读取和写入抽象为Reader/Wrier插件,纳入到整个同步框架。

FrameWork: 连接reader和writer ,作为传输通道,同时处理缓冲,流控,并发,数据转换等问题。

4 DataX运行流程

 Job:一个数据同步的作业,启动一个进程。

Task:Job可以切分(分库分表切分策略)为多个Task,Task是DataX作业最小的单元,每个task负责一部分数据同步的任务。(Task以Reader-Channel-Writer线程完成同步)

Schedule:Task分组( 总并发度channel,每个TaskGroup组并发度最大5,组数= 总并发channel / 5,每个组多少个task = 总task / 组数)。

TaskGroup:Task组,负责并发Task任务,每个组并发度最大5。

5 DataX和Sqoop对比

6 部署

注意:本部署是在虚拟机环境下,CentOS7

(1) 下载安装包,上传至虚拟机,创建一个文件夹,放在文件夹下面。

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

(2)解压缩到指定的文件夹(建议和安装包分开)

(3)执行命令,出现以下界面表示成成功。

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐