【摘要】近年来,大模型产业逐步从互联网空间走向真实的物理世界,与实体经济深度融合,在深度和广度上更好地赋能智能经济与智能社会的发展。应充分发挥我国生成式人工智能产业的规模优势,聚焦多样化应用场景的快速落地、商业模式创新与价值实现。从数据、算力、模型与应用场景等多维度,直面大模型应用落地中的各种挑战,通过政策引领、体制机制创新、更高质量数据集的构建与开放使用、全国一体化AI算力基础设施建设以及场景创新等的合力支撑,重塑我国生成式人工智能产业发展的全球竞争新优势,让中国的人工智能发展为增进人类福祉作出更大的贡献。
【关键词】大模型产业 生成式人工智能
通用智能体
【中图分类号】TP18 【文献标识码】A
生成式人工智能的大型语言模型通常分为基础(基座或底座)大模型、下游任务微调优化大模型等,目的是通过自监督学习方法,实现对文本、图像、视频、语音等多模态序列训练数据的语言建模、理解与生成。具有下一个语义符(token)预测能力的大模型通过模仿人类的语言智能,不但对各种模态具有统一的语义对齐表达、学习与记忆,同时嵌入了数据驱动的人类一般性世界知识模型,因此能够以数据智能新物种的形态完成过去仅有人类才能完成的、从简单到复杂的多样化任务。自2022年11月30日ChatGPT问世以来,生成式人工智能在全球范围进入到爆发式发展阶段,已初具产业落地的应用条件与生态。目前,基础大模型需要进一步提升其完成复杂任务的能力,同时提高准确率,增强其安全与价值对齐,尤其是聚焦于如何大幅提高大模型的复杂逻辑推理能力。
近年来,国内大模型发展如火如荼。据统计,截至2024年4月底,国内总共推出305个大模型,其中参数规模超过10亿的国产大模型达到了100多个,并且相当一部分来自于国内外的开源代码,如美国Meta公司的Llama系列开源大模型等。从原理上来讲,目前生成式预训练模型面向自回归或受损文本重建语言建模主任务,大多采用Transformer注意力神经网络架构,同时使用基于随机梯度下降的自监督学习方法。从使用的网络架构与预训练方法来说,各种大模型都相差不大,存在的不同之处主要涉及网络结构参数与超参数,各种(层)归一化或尺度变换的策略有所不同,预训练的策略也可能存在差异,但这些本质上属于工程实现问题。显然,基于Transformer架构的基础大语言模型及从头开始的预训练算法的研究,实际上并没有多少创新之处,相应的开源代码也难以较大程度地进行调整和修改。此外,预训练所采用的大规模文本语料库,如Pile等都属于公开数据集,对应的预训练算力也通常使用各种云服务器来完成。
在几十亿到几十万亿参数规模的众多大模型中,部分企业或研发机构仅解决了大模型的“发布”问题,并未针对大型语言模型亟需解决的准确率、幻觉与复杂逻辑推理能力等科学问题与技术落地“痛点”,开展实质性的原始创新或关键技术突破。一些企业甚至还涉嫌套牌使用。事实上,一年多来,我国大模型的融资案例超过了100起,新增投入达到了200亿元以上,其中大部分资金主要用来购买或创建相应的AI算力或智算中心。
大模型的价值在于应用
只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能体现生成式人工智能的产业价值,也才能成就大模型本身。如果说自2012年至2022年的人工智能是所谓的弱人工智能,相应的应用落地与产业发展较为艰难,那目前的生成式人工智能则迈入了完全崭新的阶段,其对经济社会的影响与应用价值已不可同日而语。生成式人工智能作为新质生产力的典型代表,需要重点关注“人工智能+”或“+人工智能”,需要聚焦多模态大模型、具身智能与交互式人工智能在各个细分垂直领域与实际场景中的多样化应用。
我国移动互联网快速发展,不仅建设了全球规模最大的5G基础设施,而且在移动支付、电子商务、数字经济等方面始终位列全球第一梯队。这为我国生成式人工智能产业的加速落地,提供了全球最具多样化的应用需求与实际赋能场景。事实上,我国在弱人工智能的应用上长期走在世界前列。在政策加持与各种应用场景创新的引领下,我国在弱人工智能的应用落地速度、应用场景多样性、标签大数据体量和商业模式创新等方面,被普遍认为居于全球领先地位。实践表明,在目前的全球创新生态中,相对于“从0到1”的原始性创新,加速大模型的落地应用是我们最擅长且最有可能支撑我国继续占据全球人工智能第一阵营,并保持世界人工智能应用领先优势,赋能经济社会发展的关键变量。
在大模型快速发展的多样化行业应用中,基础或基座大型语言模型发挥着核心支撑作用,但面向多样化任务需求进行的下游模型的微调显得更为重要。这里的微调既包括模型中全部或部分参数的微小调整,也可以直接利用提示词进行更为简单自然的优化。微调学习方法既可以使用监督微调(SFT)方法,也可以采用强大的深度强化学习算法。针对AI辅助教育、AI辅助医疗、AI辅助金融以及智能问答、智能咨询、智能推荐、智能总结、智能写作、智能翻译、智能决策、低代码产业和人工智能生成内容(AIGC)、人工智能搜索引擎等各种下游任务,结合行业微调数据,基于思维链(CoT)等提示工程改变提问或遵从指令的技巧,同时通过将大模型与检索增强生成(RAG)等技术进行结合,利用外部搜索工具及行业的知识库或知识图谱,可以进一步减少大模型的幻觉与偏见,提升其准确率与复杂的逻辑推理能力。不仅可以带来更好的用户体验,而且可以强化对行业私有数据及专业知识库的数据安全、数据隐私及知识产权保护。
在“大模型+RAG”中,通过对任务的理解,利用检索引擎进行搜索,之后基于PageRank等网页排序算法获得相关知识的排序,再将搜索且排序的检索结果汇合形成新的提示词进行提问或发出指令,最后再利用各种大、小语言模型,以期获得更加精准与合理的回答。大量实验结果表明,这种创新的技术解决方案不仅无须上载私有的行业文档资料及专业知识库,克服对数据安全与知识产权保护的应用焦虑,而且可以有效地缓解幻觉,提高准确率与用户体验,还能提升大模型的时效性、逻辑推理能力、长期记忆及对各种外部或外挂工具的复用能力等。
除了上述大型语言模型(LLM),目前小型语言模型(SLM)或称小模型以其高效、轻量、紧凑与低成本的特点,持续得到全球头部企业的高度关注,并不断得到发展。如微软的Phi-2、Phi-3序列,又如谷歌的Gemma和英国的Mistral等。这些小模型通常仅有几十个亿的参数规模,由于采用了高质量数据进行从头开始的预训练,同时充分蒸馏、量化了Transformer架构的冗余参数,因而可以在单卡甚至在手机移动端侧进行推断部署。结合知识储备与逻辑推理能力等在内的许多基准测试结果表明,轻量化小模型的性能甚至可以超越规模大其数十倍以上的大模型,这让多模态智能体的开发与应用更加高效、实时与灵活。因此,“小模型+RAG”在具身智能体与交互式人工智能的应用落地实践中,同样需要得到重视。
综上所述,一方面,应继续大力发展行业大模型与应用场景大模型,保持其良好发展势头,深耕“人工智能+”与“+人工智能”的垂域应用;另一方面,应聚焦大模型产业应用中的高质量数据集构建、大规模分布式AI算力网的一体化部署、混合专家模型(MoE)、高效微调、大/小模型+RAG、知识增强、逻辑增强、大模型的压缩及量化技术,提示工程以及大、小模型与强化学习、图神经网络及长期记忆的结合等,为我国大模型产业的应用落地提供源源不断的技术创新动能与共性关键技术新突破。
我国大模型产业发展迎来重要窗口期
通用人工智能目前正经历如下迭代演化路径,即从早期的GPT等文本语料大型语言模型(包括基础/基座模型与下游微调模型),然后通过增加视、听、说以及移动与操作能力等,迭代升级到目前正蓬勃发展中的多模态大型语言模型和多模态具身智能体,并将进一步发展到多模态交互式通用人工智能新阶段。
在架构方面,Transformer注意力神经网络主要涉及编码器和解码器两个部分,前者用于对输入token序列进行掩码预测与编码表达,后者则可以进一步实现对大规模训练序列或对物理世界的自回归逼近与生成。需要注意的是,GPT等生成式预训练大模型或生成式人工智能通常仅由多层解码器组成。简单来说,生成式人工智能就是模仿学习,这里的生成实际就是模仿。而通用人工智能的路径演化则是“模仿学习+交互式学习”。
2023年下半年以来,可直接赋能人形机器人和自动驾驶的多模态大模型、多模态具身智能体得以迅猛发展,人工智能的应用逐步从互联网空间走向真实的物理世界,开始更加重视与实体经济的融合发展,并赋能新制造、新能源与新零售等垂直领域或行业的产业部署与跨界应用。人工智能的应用在全球范围呈现爆发性增长态势,我国大模型产业发展迎来重要窗口期。
随着GPT-4V等的正式发布,多模态大模型已具有“读图”“读音”或直接看懂图像、视频与听懂语音的能力。例如,基于单段式端到端视觉语言动作大模型的智能体,利用少量编程即可构建出视觉神经网络,然后通过直接观看人类移动或操作视频就可进行直觉或本能的“快思维”自主学习,从而获得在真实物理世界中的相应技能。总体来看,相对于过去分段式的人工智能方法,单段式或单模型的端到端视觉语言动作大模型及其解决方案是自动驾驶与人形机器人研发范式的一个根本性改变,是真正的全自主学习人工智能解决方案。正是由于上述新范式、新导向的出现,我们有理由相信自动驾驶将有可能实现L4级别,甚至达到完全人类水平的L5级别。具身智能体人形机器人将渗透到实体经济的千行百业,成为智能制造的主力,同时走入千家万户,完成精神陪护、家政服务与养老服务等。人机共融社会的未来景象或将不再是一种科幻般的憧憬。这种颠覆性技术变革所带来的生产力与生产效率跃升及人类文明进步,有望创建数十万亿美元的产业想象空间,必将具有“改变世界”的重大意义与巨大的产业带动作用。为此,我们必须未雨绸缪,在战略性新兴产业与未来产业的国家战略安排与产业布局上给予足够的重视。
总体上,包括单段式端到端纯视觉方案在内,多模态大模型与具身智能体赋能通用人形机器人和自动驾驶等的快速发展,不仅构筑了国家重大战略发展的价值新高地,而且是发展新质生产力与颠覆性技术创新的典型代表;不仅是助推智能经济与智能社会发展的新机遇、新引擎和新动能,也是国际竞争与合作的新阵地、新赛道和新风口。
我国大模型产业发展面临挑战
在某种意义上,人类似乎找到了一条可行的人工智能实现路径,即以数据智能的形态模仿并交互式学习人类的外部智能行为,以完成过去仅有人类才能完成的一系列复杂任务。从整个迭代演化路径来看,目前通用人工智能的发展才刚刚拉开序幕。在迈向更高水平的通用人工智能,甚至走向强人工智能“奇点”时刻的征途上,前方的道路充满了挑战。
人工智能涉及数据、算力、模型与算法、应用场景和垂直整合五个维度,其中数据是基础,芯片是高地,算法是核心,人才是关键,选定垂直细分领域最重要。我国大模型产业在基础算法创新、基座大模型预训练数据、公共算力占比等方面需要进一步提升。由于大模型产业的资源投入较大、产业链条较长、应用场景多样复杂,企业普遍面临着高端人才不足、资金与技术匮乏等难题。一方面需要降低从头开始的基础模型的分布式预训练成本,特别是大幅减少垂直行业大模型的推断应用部署成本;另一方面还需要推动传统企业数字化转型升级,赋能企业提质增效,进一步改善用户体验与提高市场渗透率。
为此,我们需要首先针对行业与实际应用场景获取高质量预训练数据与微调数据。在大模型的应用实践中普遍存在着数据的碎片化、“孤岛”、冗余、野值和非均衡等难题,不仅需要发展高质量的数据采集与清洗技术,如面向语言建模主任务的数十万亿token的大规模语料库,以及行业预训练数据、结合特定任务从数十万至百万量级的短视频训练数据;还需要有效利用各种专业知识库的搜索与知识增强、逻辑增强,并着力解决数据安全、隐私保护、知识产权和数据合规等应用落地问题,推进人工智能治理的国际合作。与此同时,为了提高智能体的学习效率与质量,应进一步引入Sora、空间智能等世界模拟器,用于提供合成视频训练数据,以弥补人类视频训练数据的不足,并提高训练效能。
其次,在AI算力基础设施的需求与产业化部署方面,随着多模态大模型与具身智能体的发展,尤其是单段式端到端视觉语言动作大模型的范式变革,由于涉及时空像素空间的物理学规律模拟,因此对分布式预训练的AI算力需求巨大。视觉作为高阶模态(时空上下文长序列),同时考虑到生成式人工智能的规模化定律(Scaling Law)与涌现能力,因此发展基础大型语言模型、行业大模型、多模态视觉语言动作大模型与通用世界模拟器作为合成视频数据等,均需要极大的AI算力作为支撑。为此,我们需要有效构建并充分利用10—100个E量级的全国一体化AI算力基础设施,以泛在的智慧云方式,大幅减少重复建设与资源浪费,补齐短板,发挥优势。
在模型与算法创新方面,针对长尾应用与边缘事件,前述单段式端到端视觉语言动作大模型带来了历史性机遇,极有可能成为技术突破的有效方案。目前围绕多模态大模型与具身智能体的理论与技术创新,如Transformer模型的平替与升级换代已成为全球科技界、产业界共同关注的创新焦点。考虑到Transformer模型通常具有二次方的计算复杂度,因此各种具有线性复杂度,乃至常数复杂度的新一代注意力模型与在线学习模型,成为当前学术研究的重点。此外,基础大模型的性能上限在哪里?规模化定律是否具有更大程度的普适性?如何突破符号水平的复杂逻辑推理能力?有关数据智能新物种的自主意图、自我意识与自我进化等是否应设定为人类发展通用人工智能的红线?这些已成为有关模型与算法创新的热点问题。
最后,开放域的人工智能应用场景落地自2012年以来一直是一个重要问题,原因是面对长尾与边缘挑战,人们不能通过感知—决策列举的方式,全面探索和尝试所有可能的路径和方法。因而在相当程度上降低了多模态智能体的环境适应性与自主能力。在高AI算力的支撑下,大模型落地应用场景以学习解决一切问题,通过远比人类强大的高效的自监督学习,实现了对人类全部文本语料数据的模拟,基于多模态方式完成对人类各种感知与行为动作能力的模仿学习,并最终利用多模态智能体与真实物理世界的交互式强化学习,获得从“形似到神似”的性能跃升。在此过程中,大模型方法本质上构建并利用了某种意义上的人类语言智能与知识驱动模型,获得了时空场景的理解能力与逻辑推理能力,也进行了结合虚实平行世界的交互式自主探索与最优策略迁移。这些不仅为大模型面向开放域长尾与边缘挑战的真实场景的落地应用,提供了一种更加类似人类视觉技能学习的崭新范式,而且为多模态智能体的迭代演化指明了前行的方向。
总之,我国大模型产业的发展在数据、算力、算法与应用场景创新方面,正经历前所未有的历史性机遇与挑战。面对席卷而来的生成式人工智能发展浪潮,我国生成式人工智能与通用人工智能作为新质生产力,一定能够赋能经济社会发展。通过政策引领、体制机制创新、更高质量数据集的构建与开放使用、全国一体化AI算力基础设施建设以及场景创新等的合力支撑,充分发挥我国大模型产业的规模优势,塑造我国生成式人工智能产业发展的全球竞争优势,让中国的人工智能发展为增进人类福祉作出更大的贡献。
(作者为清华大学计算机科学与技术系教授,人工智能研究院视觉智能研究中心主任)
责编/银冰瑶 美编/杨玲玲
声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。