天穹ChatBI：知识管理+对话解析+意图追问+SQL生成+数据洞察

天穹ChatBI的工作流和5个模块介绍，关键点：带追问模式的多轮对话 + 结合一阶段和二阶段的SQL生成

m0_65266009

985人浏览 · 2025-03-22 21:39:19

m0_65266009 · 2025-03-22 21:39:19 发布

介绍天穹ChatBI的工作流和5个模块：知识管理+对话解析+意图追问+SQL生成+数据洞察

关键点：带追问模式的多轮对话 + 结合一阶段和二阶段的SQL生成

来源：

天穹ChatBI：AI赋能的全面BI分析算法解决方案

一.机遇

增强体验

提升性能

扩展功能（自动化数据准备，洞察建议，多轮对话中的意图澄）

二.挑战

交互限制：固定的查询界面或复杂的编程语言

性能瓶颈：忽略准确选表的重要性，领域特定高质量数据的稀缺限制微调方法的有效性

系统能力缺失：缺乏足够的灵活性来满足多样化的业务需求

三.解决方案

1整体框架：

知识管理模块，对话解析模块，意图追问模块，SQL生成模块，数据洞察模块

2工作流：

第一阶段：对话解析，评估输入语义是否完整，完整则下一阶段，否则利用匹配算法（历史对话）补充当前语义

第二阶段：意图追问，召回的字段间仍然存在模糊性或混淆，向用户意图澄清

第三阶段：SQL生成，为每个查询选择合适的表，一阶段SQL生成法和一阶段SQL生成法

第四阶段：数据洞察，执行自动数据准备、复杂任务规划、洞察工具执行，并最终生成相应的报告

3深入解析：

·知识管理：

知识存储：使用EasyGraph构建了一个多维知识图谱（包含关键维度：1)元数据信息，包括表结构、列值；2)业务知识，包括特定领域的字段、术语定义及相关业务背景；3)用于LLMs提示的示例信息；4)对话历史）

知识处理：根据具体的业务场景手动标注节点属性；对于缺失属性的知识，通过元数据增强技术完成（技术发生在两个层面上：1使用AI技术自动补全上下文，2通过数据工程方法补充缺失的元数据）

知识检索：粗排和精排（粗：Elasticsearch进行粗略检索；精：二次搜索，选重排模型（重排器）排名前k个节点）

·带有追问的多轮对话：

对话解析：输入是否包含指标和维度，缺则补充

意图追问：

意图分类：

（意图分类结果I(Q)）

知识检索：采用嵌入式和ElasticSearch相结合的方法检索提示示例和领域知识

意图澄清：I(Q)=0时询问用户，=1时从知识库检索，=2时直接下一步

·SQL生成：

库表选择：粗排+重排

一阶段SQL生成：数据准备+数据增强

数据增强：通过分析错误类型和用户反馈，我们开发了两种改进策略：一是自动评估生成结果，将失败案例按错误类型（如时间处理、单位转换等）分类，并在下一阶段优先解决这些问题；二是通过小规模用户测试收集对生成SQL的评价，将低分案例标注并加入新训练集

二阶段SQL生成：语义信息提取+SQL生成

·数据洞察：

自动数字准备，任务规划，工具执行，洞察总结

四.实验

·评价指标：有用执行准确率（UEX）指标

在库表选择任务上，我们使用Recall@5指标，它指的是目标表出现在前5个召回表中的比率；知识管理中的知识检索、数据洞察中的综合分析等，分别采用了检索召回率和执行准确率

·模型对比：

单论对话数据集评测：

Baseline	UEX
DIN-SQL + GPT-4o	30.06%
MAC-SQL + GPT-4o	36.42%
MRD-SQL	61.85%
ChatBI two-step（天穹一阶段sql）	79.19%
ChatBI one-step（二阶段）	83.24%

多轮对话数据集评测：

Baseline	UEX
DIN-SQL + GPT-4o	11.25%
MAC-SQL + GPT-4o	15.63%
MRD-SQL	28.13%
ChatBI two-step	55.00%
ChatBI one-step	62.50%

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

2025-2026 年数据分析设选题大全热门推荐

永洪数据分析社区

从原理到实战：DeepAnalyze 如何在真实业务中实现自主数据分析

永洪数据分析社区

【ChatBI祛魅（3）】ChatBI 的“BI”之困：Text-to-SQL何以成为“皇帝的新码”？

永洪数据分析社区

所有评论(0)

查看更多评论

m0_65266009

@m0_65266009

已为社区贡献3条内容