介绍天穹ChatBI的工作流和5个模块:知识管理+对话解析+意图追问+SQL生成+数据洞察

关键点:带追问模式的多轮对话 + 结合一阶段和二阶段的SQL生成

来源:

天穹ChatBI:AI赋能的全面BI分析算法解决方案


一.机遇

增强体验

提升性能

扩展功能(自动化数据准备,洞察建议,多轮对话中的意图澄)

二.挑战

交互限制:固定的查询界面或复杂的编程语言

性能瓶颈:忽略准确选表的重要性,领域特定高质量数据的稀缺限制微调方法的有效性

系统能力缺失:缺乏足够的灵活性来满足多样化的业务需求


三.解决方案

1整体框架:

知识管理模块,对话解析模块,意图追问模块,SQL生成模块,数据洞察模块

2工作流:

第一阶段:对话解析评估输入语义是否完整,完整则下一阶段,否则利用匹配算法(历史对话)补充当前语义

第二阶段:意图追问,召回的字段间仍然存在模糊性或混淆,向用户意图澄清

第三阶段:SQL生成,为每个查询选择合适的表,一阶段SQL生成法和一阶段SQL生成法

第四阶段:数据洞察,执行自动数据准备、复杂任务规划、洞察工具执行,并最终生成相应的报告

3深入解析:

·知识管理:

        知识存储:使用EasyGraph构建了一个多维知识图谱(包含关键维度:1)元数据信息,包括表结构、列值;2)业务知识,包括特定领域的字段、术语定义及相关业务背景;3)用于LLMs提示的示例信息4)对话历史

        知识处理:根据具体的业务场景手动标注节点属性;对于缺失属性的知识,通过元数据增强技术完成(技术发生在两个层面上:1使用AI技术自动补全上下文,2通过数据工程方法补充缺失的元数据)

        知识检索:粗排和精排(粗:Elasticsearch进行粗略检索;精:二次搜索,选重排模型(重排器)排名前k个节点)

·带有追问的多轮对话:

对话解析:输入是否包含指标和维度,缺则补充

意图追问:

        意图分类:

        

        (意图分类结果I(Q))

        知识检索:采用嵌入式和ElasticSearch相结合的方法检索提示示例和领域知识

        意图澄清:I(Q)=0时询问用户,=1时从知识库检索,=2时直接下一步

·SQL生成:

        库表选择:粗排+重排        

        一阶段SQL生成:数据准备+数据增强

                数据增强:通过分析错误类型和用户反馈,我们开发了两种改进策略:一是自动评估生成结果,将失败案例按错误类型(如时间处理、单位转换等)分类,并在下一阶段优先解决这些问题;二是通过小规模用户测试收集对生成SQL的评价,将低分案例标注并加入新训练集

        二阶段SQL生成:语义信息提取+SQL生成

·数据洞察:

        自动数字准备,任务规划,工具执行,洞察总结


四.实验

·评价指标:有用执行准确率(UEX)指标

库表选择任务上,我们使用Recall@5指标,它指的是目标表出现在前5个召回表中的比率;知识管理中的知识检索、数据洞察中的综合分析等,分别采用了检索召回率执行准确

·模型对比:

单论对话数据集评测:

Baseline

UEX

DIN-SQL + GPT-4o

30.06%

MAC-SQL + GPT-4o

36.42%

MRD-SQL

61.85%

ChatBI two-step(天穹一阶段sql)

79.19%

ChatBI one-step(二阶段)

83.24%

多轮对话数据集评测:

Baseline

UEX

DIN-SQL + GPT-4o

11.25%

MAC-SQL + GPT-4o

15.63%

MRD-SQL

28.13%

ChatBI two-step

55.00%

ChatBI one-step

62.50%

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐