
一文读懂数据库、数据仓库、数据平台、数据中台、数据湖
数据库是用于存储、管理、维护和检索数据的系统。是所有软件应用、网站、企业信息系统和数据驱动决策的基础。简单来说就是:数据库就是一个存储信息(水)的容器。数据库使用场景-图1数据库主要分为两种类型:关系型数据库和非关系型(NoSQL)数据库。非关系型又分为四种类型:键值型、列存储型、文件型和图形数据库(这块后面有时间详细说下)。数据库类型-图2题外话:某些数据库(如 MongoDB)可以分为多个类别
01.什么是数据库?
数据库是用于存储、管理、维护和检索数据的系统。是所有软件应用、网站、企业信息系统和数据驱动决策的基础。简单来说就是:数据库就是一个存储信息(水)的容器。
数据库使用场景-图1
数据库主要分为两种类型:关系型数据库和非关系型(NoSQL)数据库。非关系型又分为四种类型:键值型、列存储型、文件型和图形数据库(这块后面有时间详细说下)。
数据库类型-图2
题外话:某些数据库(如 MongoDB)可以分为多个类别,因为它们支持不同的数据模型。此外,所提供的列表并不详尽,因为每个类别中还有许多其他数据库可用。
数据类型-图3
数据可以是结构化的、半结构化的,也可以是非结构化的,并以表格、文档和键值对等各种格式存储。它可以是任何东西,从简单的购物清单到图片库,再到企业网络中的大量信息。
数据库它的重点在"事务处理(可以简单理解为SQL操作)"上,不擅长数据分析。
02.什么是数据仓库?
数据仓库是一个集中式存储库,用于存储,来自多个数据源的大量结构化数据。它使组织能够整合数据,进行数据分析、报告等。
举个栗子:数据库是超市的一瓶水或酒,数据仓库就是超市的酒水展览区。
数据仓库使用场景-图4
数据仓库架构示意-图5
数据仓库适合处理结构化数据进行分析,但是无法处理半结构化、非结构化数据,也无法实时进行数据分析。
03.什么是数据平台?
数据平台是一个全面的技术解决方案,对数据生命周期的整个数据处理流程,包括数据的收集、存储、管理、分析和可视化。它不仅包含数据仓库的功能,还扩展了非结构化数据的采集、大数据处理、实时分析、数据科学和机器学习等能力。
举个栗子:数据平台就是超市的管理办公室,管理商品的摆放、下架等等。
数据平台使用场景-图6
数据仓库架构示意-图7
数据平台擅长处理结构化、非结构化数据,并深度、实时分析,生成报告,但相对较为闭塞。
04.什么是数据中台?
数据中台是一种以数据为核心的架构和理念,旨在构建一个集中、可控、高效的数据管理平台。它将企业内外的各类数据整合,通过统一的标准和规范,实现数据的互通和共享。
举个栗子:数据中台就是超市的供应链,接收派发来自不同厂家的商品、物资等,进行分类、存储和摆放。
数据中台使用场景-图8
数据中台架构示意-图9
数据中台能提供API或其他共享方式提供数据服务,确保数据快速、灵活地服务于业务,加速决策。但是缺少原始的、未加工的形式的数据。
05.什么是数据湖?
数据湖是一个未整合的、非面向主题的数据集合。数据湖可以存放来源不同的任何类型的数据,这些数据可以是结构化的、非结构化的、半结构化的。它是你可以以可伸缩的方式存储和处理所有数据的地方。
举个栗子:数据湖就是N个超市(还是不同类型的),山姆+华润万家+朴朴+摆地摊等等。
数据湖使用场景-图10
数据湖架构示意-图11
数据湖是一个存储(N多数据)原始数据的地方,适合为数据分析人员和数据科学家提供一个自由探索的环境,他们可以在这里挖掘数据,发现新的见解。就像是一个实验室,里面的化学用品(数据)可以被拿来分析和实验,看看能发现什么新东西。
06.区别
- 数据类型:
-
数据库:主要处理结构化数据,有明确的数据结构和模式。
-
数据仓库:通常处理结构化数据,经过了一定的清洗、转换和整合。
-
数据平台:能够处理结构化、半结构化和非结构化数据。
-
数据中台:整合了多种类型的数据,包括结构化、半结构化和非结构化。
-
数据湖:可以容纳各种类型的数据,包括原始的、未经处理的结构化、半结构化和非结构化数据。
- 数据用途:
-
数据库:支持日常的事务处理,如订单录入、客户信息管理等。
-
数据仓库:用于数据分析和决策支持,例如生成报表、进行数据挖掘。
-
数据平台:涵盖了数据的全生命周期管理,包括采集、存储、处理、分析和应用。
-
数据中台:着重于打破数据孤岛,实现数据的共享和复用,以支持快速的业务创新。
-
数据湖:作为数据的存储池,为后续的分析和处理提供原始数据。
- 数据模式:
-
数据库:遵循严格的预定义模式。
-
数据仓库:通常有较为固定的模式,但相对数据库可能更具灵活性。
-
数据平台:模式较为灵活,可根据不同的处理需求进行调整。
-
数据中台:强调统一的数据标准和规范,以确保数据的一致性和可用性。
-
数据湖:没有预先定义的模式,数据在写入时无需进行模式定义。
- 数据处理速度:
-
数据库:注重事务处理的速度和一致性。
-
数据仓库:处理大规模数据的分析查询,速度相对较慢。
-
数据平台:性能取决于具体的技术架构和配置。
-
数据中台:致力于提供快速的数据服务和响应能力。
-
数据湖:在处理大规模数据时,性能可能会受到存储架构和计算资源的影响。
- 成本:
-
数据库:相对较低的建设和维护成本。
-
数据仓库:建设和维护成本较高。
-
数据平台:成本因规模和技术选型而异。
-
数据中台:通常需要较高的投入来构建和运营。
-
数据湖:存储成本可能较高,但处理成本相对较低。
区别示意-图12
总的来说,数据库是数据管理的基础,数据仓库用于分析和决策支持,数据平台提供全面的数据处理能力,数据中台强调数据的整合和共享,数据湖则用于存储大量的原始数据。这些技术在不同的场景中都有各自的价值。
6. 之间的联系:
-
它们共同构成了企业的数据管理体系,相互协作以满足不同的业务需求。
-
数据库为其他组件提供了基础的数据来源。
-
数据仓库常常从数据库中获取数据,并进行整合和分析。
-
数据平台可以整合来自数据库、数据仓库、数据湖等的数据,并提供统一的处理和管理环境。
-
数据中台依赖于数据库、数据仓库和数据平台等提供的数据,实现数据的共享和服务化。
-
数据湖可以作为数据的原始存储,为数据仓库、数据中台等提供数据支持。
举个栗子:一家超市企业可能使用数据库来管理订单和用户信息,将这些数据抽取到数据仓库进行销售趋势分析,利用数据平台进行大数据处理和机器学习模型训练,通过数据中台实现数据在不同业务部门的共享和复用,同时将大量的用户行为数据存储在数据湖中以备后续的深入分析。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)