天穹ChatBI:知识管理+对话解析+意图追问+SQL生成+数据洞察
天穹ChatBI的工作流和5个模块介绍,关键点:带追问模式的多轮对话 + 结合一阶段和二阶段的SQL生成
介绍天穹ChatBI的工作流和5个模块:知识管理+对话解析+意图追问+SQL生成+数据洞察
关键点:带追问模式的多轮对话 + 结合一阶段和二阶段的SQL生成
来源:
一.机遇
增强体验
提升性能
扩展功能(自动化数据准备,洞察建议,多轮对话中的意图澄)
二.挑战
交互限制:固定的查询界面或复杂的编程语言
性能瓶颈:忽略准确选表的重要性,领域特定高质量数据的稀缺限制微调方法的有效性
系统能力缺失:缺乏足够的灵活性来满足多样化的业务需求
三.解决方案
1整体框架:
知识管理模块,对话解析模块,意图追问模块,SQL生成模块,数据洞察模块

2工作流:
第一阶段:对话解析,评估输入语义是否完整,完整则下一阶段,否则利用匹配算法(历史对话)补充当前语义
第二阶段:意图追问,召回的字段间仍然存在模糊性或混淆,向用户意图澄清
第三阶段:SQL生成,为每个查询选择合适的表,一阶段SQL生成法和一阶段SQL生成法
第四阶段:数据洞察,执行自动数据准备、复杂任务规划、洞察工具执行,并最终生成相应的报告
3深入解析:
·知识管理:
知识存储:使用EasyGraph构建了一个多维知识图谱(包含关键维度:1)元数据信息,包括表结构、列值;2)业务知识,包括特定领域的字段、术语定义及相关业务背景;3)用于LLMs提示的示例信息;4)对话历史)
知识处理:根据具体的业务场景手动标注节点属性;对于缺失属性的知识,通过元数据增强技术完成(技术发生在两个层面上:1使用AI技术自动补全上下文,2通过数据工程方法补充缺失的元数据)
知识检索:粗排和精排(粗:Elasticsearch进行粗略检索;精:二次搜索,选重排模型(重排器)排名前k个节点)
·带有追问的多轮对话:
对话解析:输入是否包含指标和维度,缺则补充
意图追问:
意图分类:

(意图分类结果I(Q))
知识检索:采用嵌入式和ElasticSearch相结合的方法检索提示示例和领域知识
意图澄清:I(Q)=0时询问用户,=1时从知识库检索,=2时直接下一步
·SQL生成:
库表选择:粗排+重排
一阶段SQL生成:数据准备+数据增强
数据增强:通过分析错误类型和用户反馈,我们开发了两种改进策略:一是自动评估生成结果,将失败案例按错误类型(如时间处理、单位转换等)分类,并在下一阶段优先解决这些问题;二是通过小规模用户测试收集对生成SQL的评价,将低分案例标注并加入新训练集
二阶段SQL生成:语义信息提取+SQL生成
·数据洞察:
自动数字准备,任务规划,工具执行,洞察总结
四.实验
·评价指标:有用执行准确率(UEX)指标
在库表选择任务上,我们使用Recall@5指标,它指的是目标表出现在前5个召回表中的比率;知识管理中的知识检索、数据洞察中的综合分析等,分别采用了检索召回率和执行准确率
·模型对比:
单论对话数据集评测:
|
Baseline |
UEX |
|
DIN-SQL + GPT-4o |
30.06% |
|
MAC-SQL + GPT-4o |
36.42% |
|
MRD-SQL |
61.85% |
|
ChatBI two-step(天穹一阶段sql) |
79.19% |
|
ChatBI one-step(二阶段) |
83.24% |
多轮对话数据集评测:
|
Baseline |
UEX |
|
DIN-SQL + GPT-4o |
11.25% |
|
MAC-SQL + GPT-4o |
15.63% |
|
MRD-SQL |
28.13% |
|
ChatBI two-step |
55.00% |
|
ChatBI one-step |
62.50% |
更多推荐



所有评论(0)