在大数据的浪潮里,企业数据量呈爆发式增长,数据处理和分析的需求也变得越来越复杂。传统的数据库、数据仓库和数据湖各管一摊,彼此割裂,导致数据利用效率大打折扣。这个时候,湖仓一体的概念横空出世,像是一场 及时雨,为企业的数据管理带来了全新的可能性。今天,我们就来聊聊 基于 Doris 的湖仓一体,看看它到底是怎么解决数据管理的难题,让企业玩转大数据的!

1.数据管理的 “前世今生”

在大数据技术发展历程中,数据库、数据仓库和数据湖相继登场,各有使命。

  • 数据库 是数据管理的 “元老”,主要负责联机事务处理,像商场收银系统记录每一笔交易,同时也能做些基本的数据分析。但随着数据量 “野蛮生长”,数据库就有点力不从心了。

  • 数据仓库 应运而生,它存储的是清洗、加工、建模后的高价值数据,为业务人员提供专业的数据分析支持,助力企业从海量数据中挖掘商业价值。

  • 数据湖 出现后,能够低成本存储结构化、半结构化甚至非结构化数据,还提供数据处理、管理和治理的一体化方案,满足企业对原始数据的各种需求。

不过,数据仓库和数据湖各有所长,却也存在 “隔阂”。数据仓库擅长快速分析,数据湖在存储管理上更胜一筹,但数据在两者之间流转困难。而 湖仓一体 就是为了解决这个问题,让数据在数据湖和数据仓库之间无缝集成、自由流转,充分发挥两者优势,提升数据价值。

2.Doris 湖仓一体的 “神奇魔力”

Doris 设计的湖仓一体,聚焦四个关键应用场景,每一个都直击企业数据管理痛点。

(一)湖仓查询加速

Doris 拥有超高效的 OLAP 查询引擎MPP 向量化分布式查询层。打个比方,它就像数据高速公路上的超级跑车,能直接对湖上数据进行加速分析。以前需要花费很长时间才能处理完的数据查询任务,在 Doris 的助力下,瞬间就能得到结果,大大提高了数据分析效率。

(二)统一数据分析网关

企业的数据来源五花八门,有来自不同数据库、文件系统的数据,管理起来非常麻烦。Doris 就像一个 “万能钥匙”,提供各类 异构数据源的查询和写入能力。它能把这些外部数据源统一到自己的元数据映射结构上,不管数据来自哪里,用户通过 Doris 查询时,都能获得一致的体验,就像在操作一个数据库一样方便。

(三)统一数据集成

Doris 借助数据湖的数据源连接能力,能将多数据源的数据以 增量或全量 的方式同步过来,还能利用自身强大的数据处理能力对数据进行加工。加工后的数据既可以直接通过 Doris 对外提供查询服务,也能导出为下游提供数据支持。

(四)更加开放的数据平台

传统数据仓库的存储格式封闭,数据很难被外部工具访问,企业使用时总会担心数据被 “锁” 在里面。Doris 湖仓一体生态接入后,采用 Parquet/ORC 等开放开源的数据格式管理数据,还支持 Iceberg、Hudi 等提供的开放式元数据管理能力,让外部系统也能轻松访问数据。

3.Doris湖仓一体的 “硬核架构”

Doris 湖仓一体架构的核心是 多源数据目录(Multi-Catalog),它就像一个 智能数据 “连接器”,支持连接 Apache Hive、Apache Iceberg 等主流数据湖和数据库,并且可以通过 Apache Ranger 进行统一的权限管理,保障数据安全。

图片

数据湖对接流程:

  1. 创建元数据映射:Doris 获取数据湖元数据并缓存,同时支持多种权限认证和数据加密方式;
  2. 执行查询:Doris 利用缓存的元数据生成查询计划,从外部存储获取数据进行计算分析,并缓存热点数据;

  3. 返回查询结果:FE 将结果返回用户,用户可以选择将计算结果写回数据湖。

4.Doris湖仓一体的 “核心技术”

(一)可扩展的连接框架

  • FE 负责元数据对接,通过 MetaData 管理器实现基于 HiveMetastore、JDBC 和文件的元数据管理。

  • BE 提供高效读取能力,通过 NativeReader 读取多种格式数据,JniConnector 用于对接 Java 大数据生态。

图片

(二)高效缓存策略

  • 元数据缓存:支持手动同步、定期自动同步和元数据订阅,保障元数据实时高效。

    图片

  • 数据缓存:将热点数据存储在本地磁盘,采用 一致性哈希分布,避免节点扩缩容导致缓存失效。

图片

  • 查询结果缓存:让相同查询直接从缓存获取数据,减少计算量,提高查询效率。

图片

(三)高效的 Native Reader

Doris 自研的 Native Reader 直接读取Parquet、ORC 文件,避免数据转换开销,同时引入 向量化读取数据,加速数据读取速度。

图片

图片

(四)Merge IO

面对大量小文件的 IO 请求,Doris 采用 Merge IO 技术,将小的 IO 请求合并处理,提高整体吞吐性能,在碎文件较多的场景优化效果显著。

图片

(五)统计信息提高查询规划效果

Doris 通过 收集统计信息,优化查询执行计划,提高查询效率,支持 手动、自动和采样 统计信息收集。

图片

(六)多源数据目录(Multi-Catalog)

Doris 构建了 Catalog -> Database -> Table 的三层元数据层级,提供 Internal CatalogExternal Catalog,方便管理外部数据源。
例如,连接 Hive 后,用户可以创建 Catalog,直接查看、切换数据库,查询表数据,进行关联查询或数据导入导出。

5.总结

Doris 湖仓一体凭借其强大的功能、先进的架构和核心技术,为企业数据管理提供了高效、智能的解决方案。在大数据时代,它就像一座坚实的桥梁,打通数据湖与数据仓库的壁垒,让数据流转更顺畅,价值释放更充分,助力企业在数字化转型的浪潮中抢占先机!

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐