【摘要】以大数据、强算力、多模态和高维度等训练出来的人工智能大模型愈发智能,体现出类人的“聪明”。基于系统稳定性、功能有效性和优化可能性要求,大模型将注意力机制嵌入系统之中,使基于不同数据训练出来的不同大模型在处理数据时体现出表征收敛的趋向。大模型的表征收敛,一方面,显示出基于神经网络的深度学习具有实现通用人工智能的技术潜质;另一方面,也印证了大数据挖掘、大模型超越、强算力迭代和高维度透视所形成的智能具有类人性。因此,虽然人工智能大模型的表征收敛是人工智能智能性的技术体现,本质上却是以人类本质力量对象化的方式考问智能本质的哲学追问。与其说是大模型试图表示现实模型的稳定性推动了系统的表征收敛,倒不如说是大模型以“挖掘即认知”“学习获智能”“高维达简洁”对观测的经验升华构成了表征收敛的智能动因。
【关键词】表征收敛 哲学叙事 大模型 人工智能
【中图分类号】TP18 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.14.005
【作者简介】涂良川,华南师范大学马克思主义学院副院长、教授、博导,广东省习近平新时代中国特色社会主义思想研究中心特约研究员。研究方向为人工智能哲学、马克思主义哲学基础理论和政治哲学研究。主要著作有《马克思政治哲学视域中的分配正义问题研究》、《在正义与解放之间——马克思正义观的四重维度》、《历史唯物主义与政治哲学》(合著)等。
由大语言模型所支持的Sora获得了巨大成功,说明今天的人工智能大模型具有了超越内容的跨越性。近期,麻省理工学院研究团队发表了名为《柏拉图式的表征假说》的研究论文,更提出“人工智能模型,特别是深度网络中的表征正在收敛”[1]。虽然,工程学的成功和理论研究成果都难以证明基于人工神经网络的、不可解释的大模型已经实现了通用人工智能,并有触发人工智能奇点的可能性。[2]但具有表征收敛“能力”的人工智能不仅能够通过“图灵测试”,而且表明基于大模型的人工智能“正确地生成知识并作出预测是可能的”[3]。也就是说,人工智能的表征收敛,不仅意味着不同的人工智能模型(比如语言模型和视觉模型)挖掘数据的结果具有一致性,从而证明数据描述对象的客观性与稳定性,而且充分表明大模型正在获得超数据、跨模型的表征能力,强算力、多参数、高维度和难解释的大模型“正在生成一个类似于柏拉图理念论的现实统计模型”[4],呈现大模型表征方式的一致性,以及能够在数据挖掘中获得认知的能力。由此,人工智能大模型表征收敛的意义,显然超越了人工智能技术要求的运行逻辑一致性、功能实现稳定性和系统优化连续性,深入到了人工智能之智能本质之中。因为大模型的表征收敛不是物理世界的鲁棒性在计算逻辑中的表达,而是由大模型处理数据的机制、学习定义的规则和校验形成的改进而得以保障。大模型的“人工神经网络模仿的是大脑神经回路的机制,并被成功地应用于机器学习”[5],其表征收敛,不仅是对这一模仿行为有效性的证明,也是对人类智能之智能特性的表达。因此,大模型所构建的挖掘机制、实现的跨越能力和达到的高维透视,虽然依然是“大数据小任务”和“大数据大任务”,离人类经验观察获得智能“小数据大任务”的机制还有一定差距,但却肯定了机器智能表达是挖掘数据的学习、穷尽可能的通用和跨越领域的统一,并正在以“越来越相似的方式测量数据单元之间的距离”,“表征数据的方式也在变得越发一致”。[6]显然,大模型表征收敛的意义,不仅在于其以机器智能的方式再一次肯认了经验世界稳定性这一唯物主义原则,而且更以人类本质力量对象化的方式证明了人“自己思维的真理性”,即自己思维的“现实性和力量”[7]。
数据表存在与挖掘即认知
大模型的表征收敛在技术逻辑中体现为模型逻辑应对任务的灵活性,使其超越了“经典符号人工智能或GOFAI开创”的“问题的计算机表示”的“部分搜索”,[8]在建构问题的新表示中,既能够搜索不同空间,又能够形成应对问题的有效策略。一方面,这意味着达到表征收敛的大模型已然能够通过“图灵测试”并具有了智能,[9]另一方面,也表明人工智能挖掘数据能够获得对数据对象稳定的认知。因此,大模型的表征收敛不仅为人工智能技术发展提供了新的便利,还表明认知本身具有相对稳定的一般结构。大模型基于大数据训练而成是不争的事实,然而,大数据之“大”并非复刻整全存在的任意大,这既缘于技术本身的限制,也是大数据客观存在的特质。因此,经由数据挖掘而获得的收敛性并非是数据自身具有的客观结构,而是大模型形成的内部表征。大模型以此为逻辑的表征收敛,使基于数据的知识描述物理实体具有稳定性、客观性和可行性。虽然这不是传统逻辑的一致性、不矛盾性和齐一性,但是其行为主义的有效性却充分证明了挖掘即认知的重要观念。
表征收敛是大模型表达数据特性的功能特性。当然,大模型的表征收敛不是直接把数据具有的收敛性复制进系统,而是进入数据生成的结果之中才获得对数据存在逻辑的认知。我们知道,“在解释装置如何工作时并不需要表征概念;只有在解释装置怎样完成设计者预定的功能时才需要表征概念”[10]。表征收敛表面上看是系统的功能性特质,但是却从根本上体现出大模型挖掘大数据的初衷和基本假设。大模型参考柏拉图的“洞穴隐喻”,认为表征收敛的终点与核心原则是“不同的模型都只是从不同维度对现实的一种描述”[11]。当然,大模型的描述本身就是一种判断,不同大模型基于不同维度处理了大数据本身。然而,“所有数据都是由人类生成的”,“数据是由社会构建的”。[12]无论是数据表达,还是从数据中获得的规律,都不再是被“洞穴”之外的普照光投射到影壁上的描述。人类生成数据、社会建构数据“并不是随心所欲地创造,并不是在他们自己选定的条件下创造,而是在直接碰到的、既定的、从过去承继下来的条件下创造”[13]出来的数据。因此,数据作为抽象的对象,并不能构成大模型的因果性输入,而只能是被重新还原的“洞穴上的阴影”[14]。虽然大模型在数据训练的直接性上面对的是封闭系统内的特质问题,但是却不必依赖于布伦塔诺的“心理现象不是由物理规律而是由心理规律本身决定”[15]的假设,就可以在模型表征中对齐数据并获得有效预测。究其原因,无论是历史唯物主义所保障的人类社会行为的稳定性中内蕴的数据收敛性,还是普特南“收敛现实主义”的哲学确认,都指向数据存在的对齐本性。当然,大模型并没有把数据作为物理主义的假设,而是“使用编程语言描述的数学定义以及关于其数据结构的公理”[16]来证明数据刻画事实的有效性,也就必然会表达为表征的收敛性。
大模型的表征收敛不仅事实性地证明了数据表征存在的稳定性与客观性,而且表明大模型挖掘的认识活动具有收敛性。大模型挖掘即认知的“创构认识论”[17]范式成功搭建了“‘安娜·卡列尼亚’场景”[18]。一方面,不同结构良好的大模型并不会影响数据表达的存在,因为不同大模型都是以同样的机制表达着世界的可能性。今天的大模型不仅都是以具有反向传递性的神经网络作为物理结构,而且都是以深度学习作为认知逻辑。因此,大模型的不同模型不过是“条条大路通罗马”的“条条大路”,都只是把“内部结构插入其中”而已。[19]另一方面,大模型之大本身就蕴涵着“越多越好”[20]的原则,越多的数据、参数和训练交织形成复杂性越能保证表征的收敛性。虽然量大首先是基于技术设计的考量和表征逼近的方便,但其本身既意味着数据刻画对象维度的复杂和视角的全面,又说明了动态修正和不断优化才是保证对齐和收敛的根本方式。由此看来,大模型的表征收敛坚持了唯物主义对象稳定性的原则,却又不是从规定原则来分析对象的客观性。因此,一方面,数据这种基于信息的存在,作为大模型挖掘的对象向大模型本身敞开其内在的结构,另一方面,大模型也建构了大数据表达自身的结构。由此可见,大模型的表征收敛是大数据与大模型双向奔赴的结果。大模型的大参数和大训练显然不是对大数据同一维度的重复加总,也并非是在追求绝对全面中呈现大数据刻画对象不可见的一面,而是坚持特征向量具有的鲁棒性。或者说,大参数和大训练本身接受了康托集和哥德尔不完全定理的哲学训诫,以挖掘认知的稳定性而不是“实在的自洽观念”[21]来保障表征的收敛性。由此带来的深层哲学意涵则是,“大”所支撑的表征收敛本身体现了创构数据的人类实践的稳定性,大参数与大训练则构成了稳定性的另一重隐喻。即在认知中,客观实在、对象的自洽等并非是认知成果一致性的必要条件,经由人创构的机制本身也可以保住表征的收敛性,并“标志着我们已然触到了实在界/真实(the real)”[22]。
因此,虽然训练数据在表征收敛中具有基础性意义,但却并非是数据本体结构向大模型认知结构的直观迁移,而是以数据表存在的认知通过建构和挖掘获得认知稳定性的新验证。大模型依赖训练数据生成系统能力意味着大模型生成的对象、预测的结论和产生的规范,都是由模型的结构和数据的特性双重规定的。一方面,虽然大模型对数据的挖掘既能够呈现数据既有的内在基本结构,又能够扩展其可能的相互联结,但是数据既有的约束性是大模型运行的规定性却是不争事实。另一方面,数据本身又是一个开放性的结构,这既是由数据产生的逻辑决定的,又是由大模型挖掘数据本身所推动的。因此,当数据描述事实、再构事实和检视事实的时候,就既不是前定逻辑的再现,也不是任意组合的混乱,更不是神创论的无中生有。大模型要实现功能有效性,必须在其挖掘数据来实现“抽象-具象”生成[23]、功能有效预测时遵循某种基本规则。而且事实证明,大模型特别是视觉大模型“与人类在一系列识别任务中的表现是相匹配的”[24]。也就是说,虽然大模型挖掘数据的过程具有弱可解释性甚至黑箱属性,但是其遵从数据的客观性使其表征收敛获得了“本体论承诺”,而大模型基于不同观念、功能和算法的挖掘获得了处理能力,既在描述客体、预测结果和处理任务等方面表现出趋同性,又在处理数据的表征能力上呈现收敛性。显然,经由大模型挖掘的数据,一是进一步呈现了其中隐藏的可能性;二是形成了对大模型表征能力的限制;三是超越了数据本身,呈现了新的理想性。如此看来,当大模型立足于数据在生成系统的处理能力时,一方面,在唯物主义层面上贯彻了“万物源于比特”[25]的存在论原则,以表征的收敛性回避了“中文屋”的诘难,使“计算机可以通过操纵字符串做到即使并不理解问题含义,也能给出似乎理解了的答案”[26]。另一方面,大模型的表征收敛本身意味着,基于数据挖掘所形成的认知事实上是一种“参与型”的认知,[27]这既以高阶自动化的技术逻辑肯定了“我们是通过观察和研究行为来理解世界”[28]的事实,又意味着以思维建构的大模型在大数据的训练中,能够获得稳定的理解世界的方式,这已被诸如AlphaFold等科研助手的强大功能所证明。
如此看来,大模型的表征收敛具有超越人工智能系统完备性和功能性的人类学意义。大模型不是将数据作为物理系统和社会历史映射对象的产物,从而在数据的趋同性中获得表征的收敛性。大模型的表征收敛显然不仅是海量参数、巨量数据和强大算力带来的技术稳定性与功能一致性,更是对智能认知内涵与逻辑的时代性拓展与历史性创新:其一,人类认知成果的内容和结构由人类自身参与建构;其二,人类创建的高阶自动化体系获得了认知能力;其三,智能的认知既是还原与解释对象的自洽逻辑,更是生成全新内容的建构逻辑。因此,与其说大模型肯定了数据之后的数据挖掘结果具有重要意义,是人类既有知识的丰富与扩展,倒不如说大模型以独特的运行机制提出了人类智能自我理解和发展的道路问题。
“大力出奇迹”与学习获智能
一方面,大模型以超强算力将人类智能费时费力也难以发现的事实揭示出来,超越了生物智能的有限性,使其表征收敛的结论不仅构成了知识的全新内容,而且深化了自近代以来注意经验形而上学的认知观念,并以反向传递内化经验为先验方式揭示了人类实践改变认识方式的具体过程。另一方面,大模型以超强算力体现出的表征收敛获得了生成式能力,确证了深度学习获得智能的事实。大模型的表征收敛使“我们有了一种新型的知识,它让我们无须借助数学分析进行理解,便可以作出预测”[29]、生成对象和验证结论。显然,如此的成绩缘于大模型不断以强大的算力从数据中进行学习。虽然大模型的底层学习逻辑是对控制输入与输出的参数进行修正,但这一学习过程使大模型刻画的既有对象更加完美,通过“模型缝合”[30]形成了参数之间的交叉影响与相互制约,从而管理和更新“在不同模型中拥有相同概念的神经元”[31]。
大模型是在强大算力加持下,化经验为数据,以数据为基础进行的系统的自我建构,[32]在迭代中达到的表征收敛是学习成智的机器表达。在技术领域内已形成这样的基本共识,即模型的规律扩大和性能提升推进了模型表征数据的对齐能力。[33]支持大模型有如此表现的根本在于大模型处理大数据时的强算力。显然,强算力以独特的方式支持了大模型的表征收敛。从发生学的角度看,强算力可以充分挖掘数据刻画对象的逻辑与方式。一方面,强算力使计算概率、判断回归和校验齐一的计算行为获得了类概念的表达能力,使模型既学习到了数据刻画对象的逻辑,又学习到了数据中蕴涵的逻辑,从对象存在对齐的层面和刻画对象对齐的层面保证了表征收敛的可能性。另一方面,强算力的迭代虽然不断地调用模型的基本规则,却是以经验先验化的方式不断审视大模型表征能力自身。强算力的时间叠加不仅能够保障数据挖掘的宽度与广度,而且“具有类似的内部活动”,并且“随着模型扩展的持续积累,模型的表征对齐的能力也会随着时间的推移而增强”。[34]再一方面,大模型的强算力使得多层网络在技术上具有可行性,在深度学习上可收敛,其在保障结果收敛的过程中不再依赖因果逻辑将数转换成智,而是将“无理变为非线性的有理”[35],这在机器学习中体现为“通过可能的隐性或显性正则化极度降低经验风险”[36],而在哲学上则表达为大模型获得了类概念的理解力和处理力。当然,这里的理解显然就是表征收敛的一致性刻画能力、预测逻辑和调适过程。大模型训练之所以极度依赖强算力,一方面是因为达到表征收敛本身是多层嵌入缝合的结果,而这本身就是一个极度消耗算力的过程,另一方面则是因为表征收敛是通过整合“简单的表示来表达复杂表示”[37]达到的,而这意味着多层迭代。因此,强算力赋予大模型提取数据信息、形成模式判断、呈现有效规划的表征收敛性,使其具有“从对象化样本(比如许多叶子图像)学到非对象化的对象识别(比如辨认出从未见过的或千变万化的叶子)的能力”[38]。这既是满足大模型技术初衷的智能学习,又体现了大算力、高强度和多对象的学习是“累事成识”“化识为释”“升释获智”[39]的重要方式。
大模型的表征收敛特别强调与强算力直接相关的规模与性能,原因在于大模型学习本身是高度复杂的数据学习,这也意味着学习获智是一个长期的、开放的过程。就大模型表征收敛的存在论指向而言,大模型的表征收敛绝不意味着人工智能达到了全知全能的“奇点”[40]状态。大模型的“神经网络与大脑中的生物表征表现出实质性的一致性”[41],本身就是由积累而生成的开放性,并具有三方面的意义:其一,表征收敛是“大力出奇迹”所呈现的大规模处理数据、形成策略和解决问题的逻辑稳定性和功能稳定性,而非系统的封闭性。否则,大模型的表征收敛就会走向其反面:如果大模型的表征收敛运作良好,那么大模型的逻辑就会固化、功能就会单一,[42]从而与大模型表征收敛通用化的事实与追求相悖。其二,大模型强算力与大规模所集成的是人类社会历史生成的“一般智力”[43],其加持的物质体系获得表征收敛性并不是物质体系自在发展的成果,而是人类智能激活物性力量的成果。因此,大模型收敛性是“以大力出奇迹”的方式“对现有文化的大规模挪用”[44]所获得的发展性。这显然预示着大模型不仅作为人工智能的物质体系具有强大的力量,也必然构成当今人类智能的组成部分,更表明大模型“大力出奇迹”的学习具有活动的稳定性、知识逻辑的延续性和智能内容的开放性。大模型“大力出奇迹”本身并非是靠量取胜的机械积累,而是一个以深度学习表达获取智能的过程。[45]其三,大模型的表征收敛是“大力出奇迹”的学习所获得的一种“能力”,是由既定现实规定和潜在现实引领的收敛性。或者说,大模型收敛性并非是由乔姆斯基的“抄袭断定”[46]所决定的,而是由大规模本身依据的学习机制所形成的。一方面,“大力出奇迹”的机制能够在大模型的学习中直接实现“吃一堑长一智”的积累机制,从而使模型在调节参数、形成连接和衍生关系时实现自我学习机制的迭代改进;另一方面,“大力出奇迹”能够使系统同时兼顾输入系统的“外部经验”与系统生成的“内部经验”,并通过递归的、有限的“无上限自举(bootstrap heaven)”[47]而实现内外的一致性。因此,以大语言模型为代表的大模型不仅具有专业领域的适配性,而且还具有通用领域的稳定性。表面上看,这是因为大模型“大力出奇迹”能够尽可能地实现分析的逻辑可能性,本质上而言却呈现出大模型学习的可行性和习以获智的必然性。当然,也正是因为大模型本身内置了“大力出奇迹”的原则,虽产生了难以阐明的智能过程的黑箱问题,但从根本上肯定了学习获智是智能发展的基本方式。
大模型的表征收敛并非是以高容量模型来穷举复杂多样的内容信息形成的有限归纳,而是以大模型本身的“大力”去表达信息有效的结构。或者说,大模型的表征收敛不是暴力计算的还原论,不是“通过简单现象的叠加‘涌现’出来”[48]的一致性和稳定性,而是在实际对比的学习中建构起独立于时间和空间的表现形式。大模型的表征收敛有两个基本面:一是“信息等同于底层世界的信息”[49]的收敛性,二是转换信息能力的收敛性。显然,这两种收敛都不是事先定义好标准和目的的收敛,而是宽容信息的增减,并是利用随机机制基于“经验数据的方法”[50]达到的收敛。因此,收敛的大模型和大模型的收敛,本身只是以“大力出奇迹”的方式“找到了一条较好的路径”[51],但并非是最好或最佳的唯一路径,这一事实已被不同公司开发的大模型表现出同一能力的收敛性所证明。当然,无论是体现为结果的收敛性,还是呈现为挖掘数据能力的收敛性,本身都表达知识的有效性,能够有效地解释更多发生的现象、深入地挖掘更多的可能、高效地实现更远的目标,等等。比如,“训练有素的自动回归生成文本的模型还捕获了许多其他模式的统计关系,如符号推理、视觉生成、蛋白质折叠和机器人学”[52]。无论这一过程是自上而下还是自下而上,大模型的表征收敛本身就意味着不断的学习本身可以增加系统的智识稳定性,这一方面缘于大模型神经网络的可塑性,另一方面则与“大力出奇迹”的学习相关。因此,大模型本身就是不断“改进对经验的表征,就是通过已有的内在条件对外部实在作出适当的表征”[53],事实上就是以支持隐喻的方式肯定了“实践出真知”这一基本的认识论命题。大模型以“大力出奇迹”的方式不断地将系统运行的结论(可能是外在干预的,可能是预先设定的,可能是动态判定的)内化为系统表征的构成要素。
因此看来,大模型的表征收敛虽然是“大力出奇迹”的技术成功,但本质上却指向了学习尤其是充分而有效的学习之于智能的意义与价值。大模型的表征收敛之所以能够突破传统人工智能“大数据小任务”的限制,在于其引入了学习机制。不论是向对象学习的复刻式再现,还是向自我学习的反思式改进,都是获取稳定知识的不二途径。无论是对人还是对人工智能,在“智力的获得是人与外界交流学习的结果”[54]这一点上是相同的。因此,人工智能表征的收敛必然依赖于数据的大、算力的强和领域的广。这意味着人工智能这一“以我们自身的形象创造的、具有智能的人工造物”[55]正在以社会历史性的力量拓展我们的认知、扩展我们的视野、丰富我们的知识。因此,人工智能大模型的成功,不仅意味着人类获智的方式得到了拓展,更意味着人类智能必须学习新的内容,人工智能大模型已然成为人类学习必须面对的客观对象。
跨越现统一与高维达简洁
大模型的表征收敛意味不同模型通过训练后具有处理数据能力的一致性,这对于当今人工智能一直追求的通用化绝对是一个利好的进展。按照一般的观点看,这是大模型高度的复杂性“涌现”出来的智能所致,不过仔细分析就会发现,大模型虽然存在黑箱的解释难题,但却以强大的算力实现了数据的高维处理。而大模型本身又是以指令、存储和自动运行为基本逻辑,这使得大模型可以在高维中以多模型的转译来再造真实、以浸入式读写来丰富知识、以通用化生成来生成现实。[56]因此,大模型表征收敛显然不是其处理数据维度的收敛性,而是高维达到的降维的简洁。一方面,“不要从技术角度想,从哲学高度想”[57]大模型的表征收敛,才能够真实地把握为什么不同模型表示数据的方式愈发一致。另一方面,大模型的表征收敛本身既是技术标准和目的之事,更是以技术方式展示的智能之事。
大模型拼接不同模型,表面上增加了表征收敛的复杂度,实质上却通过增加维度的方式实现了模型类别的跨越。从当前人工智能的发展路径看,系统的冗余虽有限度,但却允许增加维度的模型拼接。显然,这并非表明一个经过系统训练后的模型就能够直接运用于其他模型之中,而是表明不同种类的组合、处理维度的增加并非把系统的表征能力推向发散的方向,恰恰相反,其反而加强了系统的收敛性。即是说,拼接之后的高维度系统对于降维之后的对象而言更具有简洁性的表征能力。因此,今天的大模型之所以特别依赖于强算力和大数据,虽然有通过挖掘数据适配更多情形的动因,但却更是为了让系统能够获得高维的处理能力。只有高维度地解析属性、分析要素和组合特质,才能超越对象特殊属性泛化成一般属性的同维度归纳,使系统能够在对特征的响应中更直接地把握整体,从而生成收敛性的表征能力。或者说,拼接的高维度事实上是大模型实现整体知觉的有效方式。一方面,如果没有拼接的高维度,表达为数据的实体或经验不可能构成表征收敛的存在规定性,大模型也不可能具有跨越的灵活性;另一方面,拼接虽然并非直接运用格式塔的接近律、相似律和连续律来实现模型的跨越,但是却真正体现了大模型在设计中运用了人类认知的一般结构。正如“人体解剖对于猴体解剖是一把钥匙”[58]一样,如此而来的大模型也就自然获得了跨越的形而上学根据;再一方面,大模型正是通过拼接获得了类整体知觉的表征结构。虽然其有逻辑推理的根据,但却是由高维度的数据挖掘来保障。大模型的拼接事实上构造了一条整合以往经验的技术道路,从而为获得跨越的简洁奠定了存在论基础。可以说,大模型的拼接构造了一种结构,这种结构既解决了蕴涵于数据的规律和特质进入模型知识内容的道路,使其具有更广的适应性和更好的跨越性,又解决了模型“感知”对象的广泛性问题,因为拼接的大模型能够构成一种高维度的“看”,同时这一过程充分实现了大模型输入与输出的简化原则,即“得出一个最简单、最有可能的形象去与刺激模式相匹配”[59],Sora所引发的一系列哲学议题就是最好的证明。
大模型虽然是由数据训练出来的系统,但是却有“可以学习感知概念的表征”[60]能力,显然不是概念基础的物理再现,而是高维计算收敛的简洁智能。大模型是由多层神经网络构成的高维计算体系,但却能够跨越视觉和语言模式,并以线性变换来实现同一表征的不同表达。大模型已创造出解决“高维并行计算”的诸多算法,多处理器协调、分布式系统和云计算等为高维度表征提供了可能。虽然引发了一直为人诟病的黑箱问题,但是却以“站得高看得远”的隐喻预示了大模型表征收敛的哲学意象。其一,高维度计算的并行响应,事实上和“大脑以并行的方式对景物的很多不同‘特征’进行响应,并以以往经验为指导,把这些特征组合成一个有意义的整体”[61]在逻辑上是同构的。当然这并非简单地因为硅基人工神经网络和碳基生物神经网络在物理结构上的一致性,而是由于前者在面对任务、唤回记忆、跨越类别和泛化结构等领域与后者的一致。或者说,虽然表征收敛直接达成了大模型和人脑认识能力与成效上的对齐,但实质上却是人类建构高维结构、统观降维对象的一致性。这和人类通过复杂训练来完成简单任务,通过精深专业而达到触类旁通并无二致。其二,大模型的表征收敛是高维的简单计算在复杂函数约束化下的收敛性问题,高维为多任务的缩放、多通道的融合和多层面的交互提供了可能,这就从技术路径上回避了哥德尔不完全定律对系统完备性要求的问题。或者说,高维计算“通过可能的隐性或显示正则化降低了经验对系统收敛的影响”[62],使大模型能够以升维的方式而非构造完备系统的方式来解决系统表征原则的收敛性问题。一方面,这符合人类自近代以来注意经验形而上学本质的哲学传统;另一方面,意味着大模型充分考虑了人类实践活动中打破既定因果逻辑、开创全新联结的客观事实;再一方面,表明高维虽不能完全保证系统降维之后的完备性问题,但却具有现实的实践有效性。因此,作为迈向通用智能重要成果的大模型的表征收敛,如果是类人智能的“思维”,那么其“是否具有客观的真理性,这不是一个理论的问题,而是一个实践的问题”[63]。这也就是为什么在人工智能通用化的过程中,无论是技术专家还是哲学学者,都特别注重用以训练人工智能大模型的原始数据的多与广、真与大的根本原因之所在。因为对于大模型而言,高维的简洁虽然表现了表征的稳定性,但实质上却意味着在更高的维度上本身有可能形成简单的透视和简洁的规则。
大模型高维达简洁的表征收敛,显然不是对人脑智能的复刻,而是人类理智智能对象化具有的一种能力。因此,大模型推进通用智能实现本身并不意味着创造与人类等量齐观的认知主体,而是再一次推进了人类认知追求超越的必要性。本质上讲,大模型的跨越模型呈现的表征的统一性,是借助于高维达简洁的泛化来达成的一种智能模型的通用性。高维计算能够在多模态认知、多任务处理和多层次生成方面帮助模型在其本身的泛化能力与模型结构之间达到平衡状态,否则系统就会成为停不下来的图灵机。一种模态的数据进行训练,另一种模态的数据进行测试,再一种模态的数据表达生成,是常用且有效的技术开发方法,这种方法不仅是“检验模型在跨模态特征学习和共享表示学习方面的能力”[64]的重要方式,更能够呈现模型本身跨越能力的关键。因为,只有高维计算才有可能挖掘出跨数据、跨模态和跨模型的逻辑结构,才能使大模型形成的判断知识体系、生成对象的逻辑原则和处理对象的思维链条表现收敛性,成为具有公理的表征能力。[65]通观大模型表征收敛跨越并实现统一的上述逻辑,可以发现这样一个事实,即人类对智能本质的理解、对思维逻辑的分析、对物质力量的调用所构成的高阶自动化体系能够获得类人的智能。显然,这并非物自发获得了智能,也不是人类创造出来了跨越物种奇点论的全新主体,更不是“图灵人”[66]必将成为人类未来宿命的暗示,而是现实性地说明在人工智能时代探讨智能一直在途中。大模型的表征收敛作为人类自我认知旅途中创造出来的映射自我形象的存在,虽然存在着“数字的普遍理性”鄙夷受生物限定性的人之理智能力的可能,但却永远不可能理解也无法达到人类从高维降维和从低维升维的心智能力和历史理性。因为,唯有人类智能才有秉持“高维即智能”的实践智慧。
结论
诚如《三体》中所说,“基础理论决定一切”[67],“柏拉图式的表征假设”[68]决定了大模型表征必然收敛。这与其说是技术专家在为技术发展趋向寻求形而上学的根基,倒不如说需要对人工智能自身的发展和特质进行深入的哲学探讨。虽然人工智能表征收敛体现出强大的功能,不仅使其成为创造知识的高阶自动化体系,而且使得人工智能生产知识的逻辑也成为今天知识的内容。但这显然不是人工智能这一被人创造出来的系统获得主体感知力和实践创造力所致,而是人类一般知识对象化、自动化的社会历史成就。因此,大模型的表征收敛显然不是智能机器获得独立认知的成功,而是人认知对象、探寻自我和驱动对象的巨大成功。人工智能大模型的表征收敛本质上是以技术逻辑表达哲学叙事:其一,数据记录了类人实践的逻辑,大模型以表征收敛的方式呈现了实践的稳定性、认知的过程性和存在的一致性。因此,大模型虽然对于人类当下的理论而言还是黑箱,但却是人类认知挖掘能力的延伸。这样的延伸虽然并不直观,但并没有超越人对象化认知能力、升华认知经验和创新认知范式的范畴。其二,大模型以人类生产的数据和系统生成的数据为学习对象,不仅以表征收敛的方式刻画了数据描述对象的能力,而且还生成了生产数据的能力,并且体现出了结构的创新性、预测的有效性和学习的深入性。因此,大模型通过深度学习达致的表征收敛,本身指向的是社会历史性和人性的稳定性,人类通过大模型不断扩展自我的学习能力本身并没有止境,人总是在奔向真理的途中。其三,大模型不仅能够跨越数据,而且能够跨越模型的收敛性,显然不是模型必将走向单一所致,也并非是对通用智能必将取代人类智能的预言,而是以大模型表征出来的人类智能的灵活性、发展性和历史性。因此,大模型以技术逻辑的哲学叙事表明,人类智能是在高维抽象和降维具体之间达到的社会历史性平衡。人类今天创造了人工智能大模型,明天也许会创造其他更为智能的社会历史性存在,总是走在愈发智能的途中。
(本文系国家社会科学一般项目“马克思主义哲学视域中的人工智能奇点论研究”的阶段性成果,项目编号:21BZX002)
注释
[1][4][6][11][14][30][33][34][36][41][49][52][62][68]H. Minyoung et al., The Platonic Represtation Hypothesis, https://arxiv.org/abs/2405.07987.
[2]涂良川:《人工智能“无生命之生命化”技术叙事的历史唯物主义审视——再论人工智能奇点论的哲学追问》,《学术交流》,2023年第12期。
[3][5][16][26][28][29][48][50]约瑟夫·希发基思:《理解和改变世界》,唐杰、阮南捷译,北京:中信出版社,2023年,第114、87、85、113、113、117、19、27页。
[7][13][63]《马克思恩格斯选集》第1卷,北京:人民出版社,2012年,第134、669、134页。
[8]玛格丽特·博登:《AI:人工智能的本质与未来》,孙诗惠译,北京:中国人民大学出版社,2017年,第829页。
[9]吕其镁、涂良川:《“图灵测试”技术叙事的哲学追问》,《哲学动态》,2023年第3期。
[10][15]派利夏恩:《计算与认知——认知科学的基础》,任晓明、王左立译,北京:中国人民大学出版社,2007年,第28、27页。
[12]梅瑞狄斯·布鲁萨德:《人工不智能:计算机如何误解世界》,陈少芸译,北京:中信出版社,2021年,第23页。
[17]王天恩:《大数据和创构认识论》,《上海大学学报(社会科学版)》,2021年第1期。
[18][19][20]Y. Bansal, P. Nakkiran, B. Barak, "Revisiting Model Stitching to Compare Neural Representations," Advances in Neural
Information Processing Systems, 2021, pp. 225–236.
[21][22][42]斯拉沃热·齐泽克:《连线大脑里的黑格尔》,朱羽译,西安:西北大学出版社,2023年,第9、9、215页。
[23][56]涂良川:《Sora“抽象—具象”生成逻辑的真理观叙事》,《思想理论教育》,2024年第5期。
[24]D. L. Yamins et al., "Performance-Optimized Hierarchical Models Predict Neural Responses in Higher Visual Cortex," Proceedings of the National Academy of Sciences, 2014, pp. 8619–8624.
[25][27]大卫·查默斯:《现实+:每个虚拟世界都是一个新的现实》,熊祥译,北京:中信出版社,2023年,第185页。
[31]A. Dravid et al., "Rosetta Neurons: Mining the Common Units in a Model Zoo," In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 1934–1943.
[32][54]杨立昆:《科学之路:人、机器与未来》,李皓、马跃译,北京:中信出版社,2021年。
[35][38]宋冰编著,《智能与智慧:人工智能遇见中国哲学家》,北京:中信出版社,2020年,第42、43页。
[37]伊恩·古德费洛、约书亚·本吉奥、亚伦·库维尔:《深度学习》,赵申剑等译,北京:人民邮电出版社,2017年,第3页。
[39][51]特伦斯·谢诺夫斯基:《深度学习》,姜悦兵译,北京:中信出版社,2019年,第4、114页。
[40]涂良川:《马克思历史唯物主义视阈中的人工智能奇点论》,《东北师大学报(哲学社会科学版)》,2020年第1期。
[43]《马克思恩格斯全集》第31卷,北京:人民出版社,1998年,第102页。
[44]S. Žižek, Artificial Idiocy, Project Syndicate, 23 March 2023, https://www.project-syndicate.org/commentary/ai-chatbots-naive-idiots-no-sense-of-irony-by-slavoj-zizek-2023-03.
[45]涂良川:《深度学习追问学习本质的哲学叙事》,《学术交流》,2022年第11期。
[46]熊明辉:《多维考察ChatGPT》,《中国社会科学报》,2023年3月6日,第5版。
[47]安迪·克拉克:《预测算法:具身智能如何应对不确定性》,刘林澍译,北京:机械工业出版社,2020年。
[53]高新民、付东鹏:《意向性与人工智能》,北京:中国社会科学出版社,2014年,第457页。
[55]乔治·扎卡达基斯:《人类的终极命运》,陈朝译,北京:中信出版社,2017年,第288页。
[57]刘慈欣:《三体III》,重庆出版社,2010年。
[58]《马克思恩格斯全集》第30卷,北京:人民出版社,1995年,第47页。
[59]周昌乐:《将“芯”比心:“机”智过人了吗?》,杭州:浙江大学出版社,2024年,第22页。
[60]J. Ngo, and Y. Kim, "What Do Language Models Hear? Probing for Auditory Representations in Language Models," arXiv, 2024.
[61]弗朗西斯·克里克:《惊人的假说——灵魂的科学探索》,汪云九等译,长沙:湖南科学技术出版社,2001年,第36页。
[64]J. Ngiam et al., "Multimodal Deep Learning," Proceedings of the 28th International Conference on Machine Learning (ICML–11), Stanford University, 2011.
[65]吴静:《“世界模拟”的拟像迷思——基于通用视觉大模型技术的哲学反思》,《南通大学学报(社会科学版)》,2024年第3期。
[66]尼尔·波斯曼:《技术垄断:文化向技术投降》,何道宽译,北京:中信出版社,2019年,第121页。
[67]刘慈欣:《三体II》,重庆出版社,2008年。
责 编∕杨 柳 美 编∕梁丽琛
The Consistency of Representation and Its Philosophical Enlightenment
of Artificial Intelligence Large Models
Tu Liangchuan
Abstract: Large models of AI trained with big data, strong computing power, multimodality and high dimensionality are becoming more and more intelligent, reflecting human-like "smartness". Based on the requirements of system stability, functional effectiveness and optimisation possibilities, large models embed the attention mechanism into the system, so that different large models trained based on different data reflect the tendency of representational convergence when processing data. Representational convergence of the large models, on the one hand, shows that the deep learning based on neural networks has the technical potential to realise general artificial intelligence, and on the other hand, it also confirms that the intelligence formed by big data mining, large models transcendence, strong computing power iteration and high-dimensional perspectives has a human-like nature. Thus, while representational convergence of large models of AI is a technical embodiment of artificial intelligence, it is essentially a philosophical inquiry that quizzes the nature of intelligence in the form of an objectification of the essential power of humanity. It is not so much the stability of the large model that attempts to represent reality that drives the representational convergence of the system, Rather, it is the experiential sublimation of observation by large models with "mining as cognition", "learning to gain intelligence" and "high-dimensional simplicity", which constitutes the intelligent motivation for representational convergence.
Keywords: representational convergence, philosophical narratives, large models, artificial intelligence