
数字孪生与大语言模型的可信度问题
大语言模型(LLM)是使用大量文本数据进行训练,学习语言的各种模式和结构,来理解和生成人类语言的一种深度学习模型,属于自然语言处理(NLP)领域。LLM就是large language model。NLP就是Natural Language Processing,大致可以分为两大任务:NLP理解类任务 ,如文本分类、情感分析。NLP生成类任务,如文本生成、机器翻译。
大语言模型简述
什么是LLM
大语言模型(LLM)是使用大量文本数据进行训练,学习语言的各种模式和结构,来理解和生成人类语言的一种深度学习模型,属于自然语言处理(NLP)领域。
LLM就是large language model。
NLP就是Natural Language Processing,大致可以分为两大任务:NLP理解类任务 ,如文本分类、情感分析。 NLP生成类任务,如文本生成、机器翻译。
依据NLP任务类型的不同可以将大语言模型训练模式分为两类:
1.理解类任务 以Bert为代表的“预训练+Fine-tuning”模式
2.生成类任务 以GPT为代表的“自回归语言模型(即从左到右单向语言模型)+Zero /Few Shot Prompt”模式。
LLM基本构建流程
- 预训练阶段: 使用超大规模文本对模型进行训练,训练任务为“预测下一个token”,训练的数据量往往需要几万亿token。这一过程的目的是为了让模型积累足够多的知识数据,并在大量的文本数据中理解学习语言的基本结构和语义规律。以此来提高其理解和生成自然语言的能力。
- 对齐阶段:
2.1 指令微调:使用指令数据,让模型的输出格式与人类对齐,使其具备chat的能力。这一过程类似于让模型具备人脑组织语言的能力。事实上当人想说话时,一句完整的语句并不会直接出现在脑海里,而是先出现与之相关的关键词,然后将这些词藻进行组合排列,形成一句完整的句子后才会说出口。如果说预训练阶段让模型具有了产生对应关键词的能力,那么对齐阶段就是让模型具备遣词造句的技能。
2.2 奖励函数:基于新模型生成一批数据集,重组成排序对形式,人工标注后,用于训练奖励模型。奖励模型结构同基座LLM。
2.3 强化学习:使用人类反馈或者偏好数据来训练模型,使模型的输出更加符合人类的价值观或者预期行为。利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数。
如何构建LLM的步骤可以阅读hit56的 LLM大模型综述和长竹Danko的 通俗易懂的LLM
LLM基本结构与主流框架
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond一文中给出了这张图:
现有LLMs的主流架构大致可以分为三大类,即Encoder-Decoder、Decoder-Only、Encoder-Only。
Decoder-Only家族成员最多,使用最广,是目前最主流的使用框架。
要想了解Decoder-Only首先应了解什么是Transformer。
Transformer来自于论文《Attention Is All You Need》,由Google DeepMind团队在2017年发表。
Transformer 基于Encoder-Decoder的框架,同时引入了自注意力机制(Self-Attention)代替传统的循环神经网络。
上图中即为Transformer结构。图中N = 6,Transformer的Encoder部分由6个Encoder block堆叠而成,灰框代表了一个Encoder block的内部结构,包含Multi-Head Attention和全连接神经网络Feed Forward Network。Add指在原输出的基础上加了一个残差块,目的是为了防止在深度神经网络的训练过程中发生退化的问题。Norm代表归一化。
而Encoder-Only和Decoder-Only区别于Encoder-Decoder结构各只包含一种block块。如GPT结构就是一种基于Decoder-Only架构的预训练语言模型,其解码器包含12个、24个或更多解码器模块。
Transformer与残差网络的提出可以说是大语言模型的重要基石,自注意力机制在如今被大量使用在各大中小深度学习模型中。自注意力机制通过计算输入序列中每个元素与其他元素的相关性,使模型能够捕捉长距离依赖关系,残差连接则解决了深层网络训练中的梯度消失和梯度爆炸问题,使得大语言模型的参数量可以突破万亿基数,进而出现涌现效应。
大语言模型的可信度问题
以ChatGPT为代表的ai大语言模型的快速兴起,为诸多领域带来了新的内容生产方式与交互形式,然而随着大语言模型的使用普及,诸如多轮问答幻觉问题、虚假信息生成问题、信息偏见问题等越来越多的直接、间接问题也随之暴露,对大语言模型的信任与可信度问题提出新的挑战。
2017 年,何积丰院士在全球范围内首次提出“可信人工智能”(Trustworthy AI)概念。可信AI研究主要包含安全性、可解释性、公平性、隐私保护等方面,这些方面也成为评价一个人工智能系统是否值得信赖的技术评估标准。
如欧盟《可信人工智能伦理指南》、美国《促进政府使用可信人工智能》、IEEE《可解释性人工智能结构框架指南》和《金融服务可信数据和人工智能系统》以及中国人工智能产业发展联盟的《可信AI 操作指引》等。这些原则和标准,都在指引从业者如何研发设计出一个可信的人工智能系统。
值得注意的是虽然业界存在诸多关于此类问题的提议或是倡议标准,但据一些调查报告来看结果依旧不容乐观。
项目名称 | 调查时间 | 调查对象 | 信任指数 |
---|---|---|---|
Thinkers360 AI Trust Index | 2024年第三季度 | 全球范围内AI终端用户和AI提供商 | 农业(13%)、零售(22%)和制造业(28%)的信任度最低,而媒体和娱乐(54%)、国防与情报(82%)和政府(71%)的信任度较高 |
ABBYY State of Intelligent Automation Report | 2024年6月3日至12日 | 英国、美国、法国、德国、澳大利亚和新加坡的1200名IT从业者 | 美国(87%)、新加坡(86%)、英国和澳大利亚(85%)、德国(83%)的信任度较高,而法国(77%)的信任度相对较低 |
IDC关于生成式AI的调查 | 2023年 | 全球范围内900名企业管理 | 约80%的高管对生成式AI在公司未来产品和服务中的应用表示较高信任,但仍有66%的受访者担心AI的偏见和虚假信息问题 |
沃达丰《顺应未来》报告 | 2024年9月 | \ | 中国消费者对生成式AI技术的态度较为开放,35%的受访者表示会更信任应用该技术的企业,这一比例远高于新加坡(23%)和澳大利亚(19%)。此外,60%的亚太地区消费者对应用生成式AI技术的企业信任度持平或有所提高 |
《2024年爱德曼信任度调查中国报告》 | 2024年3月 | \ | 中国在综合信任指数方面继续保持领先,AI技术的信任度较高。报告强调了中国在AI领域的快速发展以及公众对AI技术的积极态度 |
依据上述报告不难看出存在行业上的信任度差异与地域国别上的可信度差异。对此类问题在参考论文 1胡晓萌,陈力源,刘正源.大语言模型的信任建构[J].中州学刊,2024,(5): 171-176 中提到了“信任与可信任的混淆与关系厘清”,人们可能信任完全不值得信任的事物,也可能不信任完全值得信任的事物,所以信任与可信任是两码事。在中文互联网上存在很多这样那样的有关大语言模型的讨论,且不完全统计,存在相当多的内容将ai大模型作为有意思的消遣内容或是充当生产力工具,评价相对国际互联网较为正面,国内互联网厂商也多退出聊天用途的大语言模型,如文中所述:企业在设计AI语言助手时,会从声音、外形等角度考虑,使人们更信任AI。机器人的声音要变得“可爱”,这样才能为人们所接受和信任。 在国际互联网上受人工智能毁灭世界的亚文化影响较大,对ai大语言模型存在不信任也是情有可原。
此外,受ai人工智能行业冲击,有部分传统行业受影响,存在潜在失业或降低竞争力的可能,因而从业者对ai不信任也是需要考虑的,此类问题可能并不是ai技术本身不可信,而是切身利益受损导致的主观感受评判,对受益行业也是如此。同时部分领域ai与大语言模型未曾涉及或涉及较少而存在可信度问题,这也是未来使用面临可信度质疑的地方。
有部分对大语言模型为代表的ai技术存在不可信或信任度低的原因在于ai大语言模型客观存在的错误与幻觉问题,对此类问题可以在回答问题前通过预先设置的搜索引擎检索相关信息提供信息时效性保证,通过外部数据库检定的方式保障信息真实性,尽管如此,对大语言模型的实际使用,主观或客观上仍存在可信度问题。
有关人工智能的想象很早就被人们所谈论,小说电影等影视作品中只需一句指令就能控制机械电子设备,独立自主完成工作劳动的想象始终活跃于银幕,现实中要想实现荧屏上的效果,现在最可靠的可能使物联网与大语言模型的组合,前者充当ai的手脚,后者充当听从指令的决策者与喉舌。有关此类的组合应用其实并不罕见,例如国内某公司的智能家用音箱,配备物联网功能后可以充当家庭管家的功能,但我们一般并不会对一个音箱抱有顾虑,其一是厂家将电子人的形象做的尽可能温和与友好,其二,对一个只能控制几盏台灯与小型家用电器的音箱盒子实在想象不到能构成何种威胁。然而,如果ai大模型具有了独自操控大型工厂或大型机械化生产车间、且当这一切发生意外时可能有危及自身的危险时不管大语言模型的厂家如何保证如何担保似乎都无法解决问题,特别是对于存在严重责任关系与事件后果的环境中,譬如重大灾害提前避险的决策、规避更大潜在损失的厂房、矿山事故等问题的自主决策,此类问题的解决可能需要涉及并设计数字孪生系统才能带来行之有效的解决办法。
将大语言模型限制在一个真实物理世界的双胞胎里,这样即使自主决策出现失误也能及时避免并纠正,在面对事故时,机器自主决策,并在数字孪生空间中验证,再由人类提供权限执行,似乎是一套较为有效地方法。
数字孪生
什么是数字孪生
数字孪生(Digital Twin)是一种通过数字技术构建的物理实体或系统的虚拟模型,能够实时反映物理实体的状态、行为和性能,并通过数据交互和分析实现对物理实体的监控、预测和优化。
基于物联网等技术,数字孪生通过传感器技术获取物理实体的数据,并将其整合到模型当中形成一个虚拟的环境,帮助掌握物理系统的状态和运行情况,从而对其优化和改进。通过将物理实体在虚拟空间中数字化表示,贯穿物理实体的全生命周期,能够根据实时数据进行更新,并通过模拟、机器学习等技术辅助决策。它不仅是外观上的复制,更重要的是能够实时反映物理实体的变化。
简而言之,数字孪生就是物理世界的“数字双胞胎”,该项技术帮助我们更好地分析、预测和监管现实中的事物。
数字孪生的有关应用与研究
数字孪生技术在多个行业和领域都有广泛的应用,诸如工业制造、智慧城市、医疗健康、交通物流等领域皆有应用与研究。
- 工业制造
产品研发:通过数字孪生技术,制造商可以在虚拟环境中模拟产品性能,优化设计。例如,波音公司在波音777X飞机的研发中,利用数字孪生技术进行设计优化,提高了性能和安全性。
生产过程优化:数字孪生用于虚拟调试,模拟生产线运行,优化生产流程。例如,大众汽车利用数字孪生技术优化汽车装配线,提高效率并减少缺陷。
设备维护与故障预测:通过实时监控设备运行数据,数字孪生技术可以预测故障,减少停机时间。例如,风力发电公司利用数字孪生技术监测风力涡轮机的性能,提前预测故障。 - 智慧城市
城市规划与管理:通过构建城市的数字孪生模型,城市管理者可以优化基础设施布局,实时监控城市运行状态。例如,新加坡的“虚拟新加坡”项目利用数字孪生技术优化交通、能源和公共安全。
智慧能源管理:数字孪生技术可以实时监控和优化城市能源系统,提高能源利用效率。例如,深圳坪山区通过数字孪生平台实现了能源系统的精细化管理。
应急管理:数字孪生技术能够实时监测和分析事故类型及损失,为城市管理者提供决策依据。例如,新疆奎屯市通过数字孪生技术优化了城市应急管理。 - 医疗健康
远程健康监测:数字孪生技术可以实时监测患者健康状态,提供远程医疗服务。例如,通过可穿戴设备监测心血管病人的健康状态,及时发现异常并启动急救。
个性化医疗:数字孪生技术可用于创建人体器官的虚拟模型,支持疾病预防和治疗。例如,达索的“生命心脏项目”通过数字孪生技术为人类心脏建立模型,用于虚拟分析和疾病预防。 - 能源领域
油气行业:数字孪生技术可用于监测油气管道的腐蚀和疲劳情况,优化设备维护周期,减少泄漏风险。
电力系统:通过数字孪生技术,电力企业可以实时监控设备运行状态,优化能源分配,提高系统可靠性。 - 交通与物流
自动驾驶与智能交通:数字孪生技术可用于模拟交通场景,优化交通流量,支持自动驾驶技术的开发。
物流优化:通过数字孪生技术,企业可以优化物流路径,提高运输效率。
各大高校研究机构如同济大学、北京航空航天大学等皆在数字孪生应用研发方面保有研究项目。
数字孪生的应用难点
数字孪生技术在应用过程中面临诸多挑战,以下是主要的应用难点:
- 技术层面
高精度建模复杂:数字孪生需要精确反映物理实体的几何结构、材料属性和物理行为,但复杂的地质、气候等动态条件难以完全模拟。
数据采集与整合:数据来源多样,包括传感器、数据库和第三方系统,但数据格式不统一,且可能存在缺失、噪声和不一致等问题,硬件与软件的配置也可能存在协议漏洞、兼容问题,因此需要大量清洗和处理。
实时性与性能瓶颈:数字孪生需要实时反映物理世界的变化,这对计算资源和算法性能提出了极高要求,尤其是在处理大规模复杂系统时。
模型更新与动态适应:物理世界是动态变化的,数字孪生模型需要不断更新以适应这些变化,这对模型的灵活性和自适应能力提出了挑战。模型能否长期且有效地使用是一个难关。 - 数据层面
数据质量与完整性:数据的准确性、完整性和一致性直接影响数字孪生的可靠性,但实际应用中数据质量往往难以保证。
数据安全与隐私保护:数字孪生涉及大量敏感数据,如产线布局、设备信息等,数据的安全性和隐私保护成为关键问题。
数据标准化缺失:目前缺乏统一的数据采集、格式和处理标准,导致数据整合和接口对接难度大。 - 行业与应用层面
商业模式不成熟:数字孪生的高定制化需求导致项目成本高昂,且难以复制,限制了其大规模推广。
行业标准缺失:数字孪生技术尚未形成统一的行业标准,不同厂商的技术实现和应用场景存在较大差异,难以形成标准化解决方案。
基础设施限制:许多传统设备缺乏足够的传感器,无法提供支持数字孪生所需的实时数据,限制了其功能的实现。 - 跨学科与系统集成
多领域知识融合:数字孪生涉及物理学、计算机科学、工程学等多个学科,需要跨学科的知识和技术整合。要求研究者与设计者拥有足够的跨学科交融能力。如对交通类基础设施进行数字化孪生就要求使用者了解房屋建筑、交通造桥等传统工程领域的知识同时又要有能够操作数字化系统、物联网、深度学习大模型的能力,无形之中增加了很多门槛。
系统互操作性差:目前缺乏统一的技术框架和协议,导致不同数字孪生系统之间的互操作性差。
可以说,数字孪生的可研究性很强,但在现阶段的实际应用方面缺乏操作的可能性。且将LLM大语言模型等ai技术与数字孪生技术相结合的研究目前较少。对此笔者认为较好的解决办法,考虑到数字孪生的技术要求、跨学科交融、数据隐私性与实施的现实政策问题,需要成立在功能与责任上类似 IEEE 的权威协会组织,由几个先行院校、企业与职能部门牵头成立,先对该项技术的使用制定行之有效的一般标准,才能更有利于技术的研究与推广。
更多推荐
所有评论(0)