【摘要】在同大语言模型知识实践的并置中,我们可以定位到学科交叉融合的必要性。以ChatGPT为代表的大语言模型,尽管才刚刚进入人类的视野中,但已经在知识实践上展现出卓越能力,成为堪称“通”家的大“专”家。我们可以用“模拟模式”与“数字模式”来分别描述人类与大语言模型的知识实践。大语言模型问世前的人工神经网络算法,数字模式的知识实践仅仅令其在狭窄的垂直领域展露出卓越智能。然而以海量人类文本为训练数据的大语言模型,其知识实践则呈现出无视领域疆界的通用性。面对大语言模型在知识实践中的应用,人类何为?潜在论与量子物理学,给出了我们积极展开跨学科知识实践的理据。
【关键词】大语言模型 后人类 模拟模式 数字模式 纯粹潜能 量子思维
【中图分类号】TP18/C19 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2023.21.005
引言
“学科交叉融合”是必要的吗?晚近经常有学术同行提出这个问题。
尽管近年来“学科交叉融合”得到大力倡导,国务院学位委员会与教育部于2020年底正式设置了“交叉学科”门类,然而不得不承认,今天的学术评价体系仍主要以学科为单位展开。如果你是一位任职于中文系的青年学者,真的有必要探究区块链、增强现实、人工智能等前沿技术乃至量子物理学抑或神经科学吗?且不说离开治学“舒适区”(comfortable zone)本身之艰难,对于跨越学科疆界形成的研究成果,由谁来评审?谁来评判这种知识实践是否生产出了优异的或至少质量合格的知识产品?如果最后仍是“现代文学”或“文艺学”领域的学者来评审,那么这些跨学科的内容很可能反而导致你的研究不被认可(因为专家读不懂你的研究)。
看起来,躲在既有学科疆界之内进行知识生产似乎是安全的,更是舒适的。于是,我们有必要对篇首的这个问题,予以认真思考。
后人类知识实践者:作为“通”家的“专”家
以ChatGPT为代表的大语言模型是2023年最受关注的技术,然而人工智能界专家们发起的相关争论,集中在它所带来的安全风险上,而非其知识实践的模式。[1]OpenAI于2022年11月30日正式上线ChatGPT后,短短数月大量人类作者同ChatGPT合写的论文、乃至ChatGPT独著的书籍,便如雨后春笋般接连问世[2];即便在大量没有署名的地方,ChatGPT亦事实性地参与了知识生产,成为了我们这个时代的重要知识实践者,一位“后人类”的实践者。[3]
笔者曾就“澳大利亚核政策变迁及其影响”这个相当纵深、专业的议题问询这位后人类的知识实践者,其几秒内输出的内容,不仅概述了澳大利亚核政策变迁的国际与国内背景及其过程,更是条分缕析地探究了导致变迁的多重原因,并剖析了变迁所带来的诸种影响。至为关键的是,这些内容得到了众多在该领域长年深耕的专家的认可。这个案例让我们看到,大语言模型俨然是一个称职的、相当出色的知识生产者。
大语言模型不仅是精通像“澳大利亚核政策变迁及其影响”这种纵深论域的专家型知识实践者,还是一个激进的超越学科疆界的知识实践者。ChatGPT被认为已接近“通用人工智能”[4]——就其知识实践而言,它显然是“通用的”(general),而非“狭窄的”(narrow);它彻底无视知识实践的学科疆界,既是强大的大“专”家,同时更是大“通”家。不少ChatGPT的用户经常拿它会出错(甚至是“一本正经地胡说八道”)说事,从而否定它作为知识生产者的资质。然而,对ChatGPT的这个批评必须纳入并置性的分析视野中:作为知识生产者的人类作者,难道就不会出错?
实际上,大语言模型出错的原因不难定位到:它们使用海量的书籍和互联网文本作为训练材料,而这些材料本身就包含错误,从各种常见的低级错误(从事实错误到错别字)到各类大量出现的“复杂错误”(从不恰当的行业建议到“阴谋论”)。[5]正是因为人大量出错,大语言模型无论怎样迭代,结构性地无法做到零出错。
这也就是“机器学习”研究里所说的“垃圾进,垃圾出”(garbage in, garbage out)。互联网文本无可避免存在大量低质量的文本,无法做到以人工的方式在训练前加以彻底排除——譬如,尽管可以把一些富含此类文本的网站整个剔除,但很多“问题文本”是随机产生的。大语言模型只能在训练中通过不断迭代权重来减少出错状况。
并且,从统计学上来看,互联网每年会增加巨量的文本,但新增的知识(亦即,纯粹“新知”)却并不多,且在巨量文本中的比例低得可怕。故此,GPT-5(如果有的话)未必一定比GPT-4提升很多,因为人类文明中几乎所有重要文献都已被纳入GPT-4的训练中,而此后产生的新文本中极小比例是高质量的。这意味着,能够进一步提升大语言模型的优质数据,正在逐渐枯竭。若大量使用新近增加的文本来训练大模型并迭代其权重,反而会使生成文本的质量下降。
我们看到,在各自的知识实践中,人类作者与后人类的大语言模型都会出错,都可能输出问题文本与低质量文本。两者对比起来,大语言模型输出文本的错误情况,实际上要比人类低得多——大语言模型几乎阅读了所有知识论域里的所有既有文本,且是一页不落地阅读,没有一个人类作者能做到如此全面与海量的阅读。对比如此“勤奋好学”的大语言模型,不少人类作者,实属片面地读了一点就敢写敢说了,其生产的多数文本(包含重要的纯粹“新知”的文本除外),质量和价值却不及大语言模型知识实践的产品。
知识实践的两种模式
将人类与大语言模型的知识实践做并置性的对比,我们能进一步定位到知识实践的两种模式。
大语言模型通过迭代权重,能够精确地控制所生产文本的质量——比如在训练时给予《自然》(Nature)期刊“论文”远高于互联网论坛同主题“帖子”的权重。而人类的知识实践者,则无法使用如此精确的权重系统(譬如,一位高颜值的主播往往会让人不知不觉对其言论给出过高权重)。对比大语言模型,人类之知识实践的一切进程,皆是以远为模糊的——“模拟的”(analog)——方式展开。[6]
作为后人类的知识实践者,大语言模型既是强大的学习者(深度学习者),亦是出色的生产者(生成式AI)。它实质性的“后人类”面向,并非在于其实践不受学科疆界限制(人类亦能做到),而是在于其学习(输入)与生产(输出),皆以“数字”(digital)形态进行。这就意味着,大语言模型实际上标识出一种同人类——“智人”(Homo sapiens)——全然不同的知识实践。
图灵奖得主、“深度学习之父”杰弗里•辛顿在2023年6月10日所作的《通向智能的两条道路》演讲中,提出了“能动者共同体”(a community of agents)分享知识的两种模式。[7]我们可以把这两种共同体模式分别命名为“数字模式”与“模拟模式”。大语言模型(人工智能)与人类(智人),分别是这两种模式的能动性实践者。
每个大语言模型,都包含了无数“数字计算”的能动者,它们使用权重完全相同的副本。如果个体能动者(亦即每个副本)具有同样权重、并以完全相同的方式使用这些权重,那么,能动者之间就可以把自身个体性训练数据中学习到的内容,通过共享权重的方式无损地实现彼此转交。也就是说,共同体内每一个能动者,都可以即时获得其他能动者的学习成果——前提是所有个体能动者皆以完全相同的方式工作,故此他们必须是数字的。
就大语言模型而言,模型的每个副本都从它所观察到的数据中学习,不同副本观察不同的数据片段,它们通过共享权重或梯度来高效地分享所学的知识。这就使得每个副本都能从其他副本的学习中收获知识。在这个意义上,大语言模型本身就是一个“能动者共同体”,该共同体内每个能动者都只是以非常低的带宽来学习(仅仅就拿到的数据片段来预测下一个单词),但彼此间能精确地共享权重——如果模型拥有万亿个权重,则意味着每次分享能开启万亿比特带宽的沟通。
于是,运行大语言模型的成本(主要体现为能源消耗)会十分巨大——这是知识实践之数字模式的代价。化石燃料消耗所导致的行星层面的生态变异,恰恰是“人类世”(the Anthropocene)的核心困境:庞大的能耗会增加巨量碳排放,推动其熵值的加速增加。[8]能源消耗以及前文讨论的数据枯竭,构成了大语言模型发展的两个关键限制。
与大语言模型相较,人类个体进行学习的能源消耗非常低,而学习带宽则远高于单个模型副本。但人类个体在分享知识过程中的效率,则远低于大语言模型。利用特定生物硬件之模拟特性来进行计算(“生物性计算”)的人类个体,只能使用“蒸馏”(distillation)来分享知识,而无法使用权重共享来精确地分享知识。[9]这就意味着,个体B没有可能完全弄清楚个体A生成内容时所使用的权重(甚至这种权重对于A本人也是不明晰的)。这便是知识实践之模拟模式的局限。
人类社会之所以会有“学校”这种教育机构,很大程度是因为人类个体无法将自己所知道的东西直接装进另一个个体的生物硬件中。两个神经网络内部架构如果不同(亦即,不存在神经元间的一一对应),那权重共享就不起作用(即A的权重对B没用)。或许可以这样理解,如果一个人能够直接使用诗人李白神经网络的权重,那他就能写出李白的诗句。不同的人类个体之间(以及不同的大语言模型之间)进行知识分享,只能使用“蒸馏”。比起权重共享,蒸馏的带宽要低得多,这意味着知识分享效率低,能耗也小。[10]金庸在其名作《天龙八部》与《笑傲江湖》中,多次描述了一类独特功夫,后辈可以把前辈几十年的功力直接“吸”到自己身上——这种功夫对任何依赖生物性硬件来进行学习的能动者而言,都是绝不可能的。而用“数字模式”进行学习的能动者,则不需要这种功夫,因为他们不需要“吸”走他人的训练成果,而是可以实现彼此拥有。
从狭窄人工智能、大语言模型到超智人工智能
让我们把分析进一步推进。我们有必要看到:跨越学科领域进行知识实践,原本是人类独家的能力。而人类知识实践者能够做到这一点(亦即,“学科交叉融合”得以可能),恰恰得益于其所采取的“模拟模式”。
在大语言模型问世之前,采取“数字模式”进行深度学习的人工神经网络算法,都只是专门的“狭窄人工智能”(narrow artificial intelligence)。“阿尔法狗”(AlphaGo)能够在围棋赛事中毫无悬念地战胜所有人类顶级高手,然而如果让它去玩《俄罗斯方块》,亦无法通关,至于写诗、编程抑或探讨“澳大利亚核政策变迁及其影响”,则完全无能为力。在大语言模型问世之前,各种狭窄的人工神经网络算法不仅在模型架构上完全不同,并且必需使用专门类别的数据来进行训练,故此无法通过分享权重的方式共享训练成果。
然而,以ChatGPT为代表的大语言模型,激进地打破了狭窄人工智能的疆域界限。ChatGPT既是编程高手,也是澳大利亚核政策专家,既懂物理学,也懂哲学、史学、文艺学……大语言模型能够跨越各种专门领域疆界进行知识实践,使“模拟模式”的既有优势荡然无存。它并不是使用专门数据(如围棋棋谱)来训练深度神经网络,而用各种类型文本(如书籍、网页、ArXiv论文、维基百科、平台用户评论等)来进行如下这个训练:从上下文来预测下一个词。借用语言学家费迪南·索绪尔的著名术语,大语言模型同“所指”(signified)无涉,但精于在“指号化链条”(signifying chain)中对“能指”(signifier)进行预测。
然而其关键就在于,人是“说话的存在”(speaking beings)。人的“世界”,正是经由语言而形成。换言之,语言绝不只是人与人之间沟通的媒介,更是“世界”得以生成的构成性媒介——没有语言,各种“实体”(entities)会继续存在,但我们却不再拥有一个“世界”。“世界”——用精神分析学家雅克·拉康的术语来说——是一个“符号性秩序”(symbolic order)。人无法同前语言的秩序(拉康笔下的“真实秩序”)产生有意义的直接互动。[11]
正是语言(由无数彼此差异的“能指”串起的“指号化链条”),使各种前语言的“存在”变成为了一个秩序(“符号性秩序”),一个人类可以理解、并居身其中的“世界”。当大语言模型深度学习了人类生产出的几乎所有文本后,那么,它就对人的“世界”(而非“真实秩序”)具有了几近整体性的认知——这便使得人类眼中的“通用”智能成为可能。
有意思的是,在《通向智能的两条道路》演讲末尾,辛顿做出如下追问:“如果这些数字智能不是通过蒸馏非常缓慢地向我们学习,而是开始直接从现实世界学习,将会发生什么?”[12]在辛顿本人看来:
如果他们可以通过对视频建模进行无监督学习,例如,我们一旦找到一种有效的方法来训练这些模型来对视频建模,他们就可以从“油管”(YouTube)的所有内容中学习,这是大量的数据。如果他们能够操纵物理世界,譬如他们有机器人手臂,等等,那也会有所帮助。但我相信,一旦这些数字能动者开始这样做,他们将能够比人类学到的多得多,而且他们将能够学得非常快。[13]
辛顿所说的“直接从现实世界学习”和“对视频建模进行无监督学习”,实际上意味着数字智能在目前大语言模型所展现的近乎“通用”的智能之上,具有了直接从前语言秩序进行学习的能力——而这种学习能力是作为“说话的存在”的人类所极度匮乏的(如果不是几乎没有的话)。人类从牙牙学语的孩童开始,几乎所有实质性的教学实践都是通过作为“指号化系统”的语言来完成的。[14]当然,婴孩出生并非“白纸”,而是带有各种不用“教”的“先天性知识”,如看到蛇会恐惧,那是经由生物性演化形成的神经网络运算系统作出的反应。相对于后人类的无监督机器学习与经由“指号化系统”而展开的人类学习,演化训练出的知识运算可称得上是前人类学习。辛顿认为,当数字智能具有这种后人类的无监督学习能力后,“超智人工智能”(super-intelligent AI)就会诞生,并且在他看来,这种情况一定会发生。[15]
回到篇首的问题:“学科交叉融合”是必要的吗?面对从大语言模型(接近“通用人工智能”)迈向“超智人工智能”的数字智能,我们可以定位到它的必要性:大语言模型在学习上已经不存在“舒适区”,无视学科疆域的边界;而超智人工智能的无监督学习,则更加无视人类“世界”的各种疆界,完全不受其影响。面对这样的“数字模式”实践者,如若作为“模拟模式”实践者的我们仍然甘心躲在“舒适区”内,那么未来“世界”的知识生产,乃至“世界化成”(worlding)本身,即将同我们不再相关。
“离身认知”与语言学转向
在知识实践上,人类不应自我边缘化。然而,问题恰恰就在于:面对大语言模型,躺平,诚然是一个极具说服力的“人生”态度。
今天的年轻人群体里,“躺平”已然十分流行,并被《咬文嚼字》编辑部评为“2021年度十大流行语”。[16]在对“躺平”施以道德谴责之前,我们有必要认真思考这个问题:面对大语言模型,为什么我们不躺平?
一个人即便再勤奋,再好学,在其有生之年能读完的书,大语言模型全都读过——甚至这颗行星上现下在世的80亿人口加起来读过的书(尤其是富含知识含量的书),大语言模型几乎全部读过。一个人哪怕天天泡在图书馆里,也比不上大语言模型把整个图书馆直接装进自身,并且随时可以用自己的话“吐”出来。面对这样的知识实践者,我们如何及得上?“躺平”难道不是最合理的态度?
在笔者的课堂讨论中,有学生曾提出这样的问题:ChatGPT的能力是指数级增长的,而我就算是不吃不喝学习,也只能一页一页地看,做线性增长,还不保证读进去的全都变成自己的知识。面对ChatGPT,反正都是输,再学习也赶不上,“终身”压上去也白搭,还不如早点躺平,做个“吃货”。人工智能没有身体,论吃它比不过我。
确实,大语言模型至少目前没有“身体”,没有感知器官,产生不出“具身认知”(embodied cognition)。赫伯特·德雷弗斯等当代后认知主义学者,强调大脑之外的身体对认知进程所起到的构成性作用:除了身体的感觉体验外,身体的解剖学结构、身体的活动方式、身体与环境的相互作用皆参与了我们对世界的认知。这意味着,如果我们拥有蝙蝠的身体,则会有全然不同的具身认知。从后认知主义视角出发来考察,当下的大语言模型,具有的诚然只是“离身认知”(disembodied cognition)。但辛顿所描述的“超智人工智能”,则将具有具身认知,并且是远远越出人类身体诸种生物性限制的后人类具身认知。
然而,值得进一步追问的是:大语言模型的这种离身认知,真的就比不上人类的具身认知吗?即便不具备具身认知,大语言模型仍然在“美食”这个垂直领域内胜过一切具有具身认知的人类“吃货”。大语言模型不需要“吃”过口水鸡和咕咾肉,才知道前者比后者辣得多,“没吃过”完全不影响它对食物乃至“世界”作出智能的分析与判断。而一个很会吃、吃了很多口水鸡的人,也不见得在吃上呈现出比ChatGPT更高的智能,如果不是相反的话。换言之,大语言模型较之许许多多自诩尝遍各类美食的人,更具有“美食家”的水准——在饮食上,ChatGPT的建议绝对比“吃货”们可靠得多。
这里的关键就是,尽管目前大语言模型因没有感知器官而不具备具身认知,但这并不影响它对“世界”的符号性捕捉。诚如OpenAI的首席科学家伊利亚·苏茨科弗所言:
它知道紫色更接近蓝色而不是红色,它知道橙色比紫色更接近红色。它仅仅通过文本知道所有这些事。[17]
大语言模型不需要亲“眼”看见过红色、蓝色或紫色,便能够精确地、恰如其分地谈论它们。许多“眼神”好得很的人类个体,恐怕会认为紫色更接近红色而非蓝色——再一次地,“模拟模式”在精确性与可靠性上往往不如“数字模式”。
大语言模型仅仅通过对“符号性秩序”的深度学习,就能够对人类处身其内的这个“世界”了如指掌。索绪尔的结构主义语言学研究已然揭示出,作为生活在语言中的“说话的存在”,我们并无法抵达“是”(譬如,什么“是”蓝色)。这就意味着,我们必须放弃关于“是”的形而上学的聚焦,转而聚焦一个符号性秩序中“是”与“是”之间的差异(亦即,符号之间的差异)。
语言,是一个关于差异的系统。语言把前语言的“存在”转化为各种“是”。和“存在”不同,“是”涉及指号化,涉及能指与所指间的一种专断的对应。[18]“红色”,就是一个能指——大语言模型无法“看见”它所指号化的内容,但完全不影响其在“世界”中有效地“说出”它(在沟通中有效)。大语言模型,同前语言的“存在”无涉,同拉康所说的“真实秩序”无涉。
以伊曼纽尔·康德为代表人物的“认识论转向”,被以索绪尔为代表人物的“语言学转向”革命性地推进,正是因为人们不但无法企及“物自体”(故此必须放弃研究“是”的形而上学),并且他们对“现象”的体验(如眼中的红色),也只能通过语言(作为能指的“红色”)进行有效沟通。完全不具备具身认知的大语言模型(无法通过感官来进行体验),却依然能够呈现出关于这个“世界”的通用性的智能,那是因为,它不断进行深度学习的,不是“世界”内的某一种专门系统,而是那个符号性地编织出“世界”的系统——一个处在不断变化中的差异系统。
纯粹潜能:论知识实践的原创性(I)
生活在大语言模型时代,“躺平”似乎无可厚非。那么,让我们再次回到上文抛出的问题:走出“舒适区”,跨学科地进行知识实践,具有必要性吗?
笔者的答案是:仍然有必要。首先,对于人类的知识实践而言,学科疆界不仅会限制研究的视野,并且会造成认知偏差。灵长类动物学家、神经生物学家罗伯特·萨波斯基提醒我们注意到:
不同类别之间的疆界经常是武断的,然而一旦某些武断的疆界存在着,我们就会忘记它是武断的,反而过分注重其重要性。[19]
对此,萨波斯基举的例子,便是从紫色到红色的可见光谱。在作为符号性秩序的“世界”中,存在着不同的“颜色”,分别由不同指号(如红、蓝色)来标识。然而,光谱实际上是不同波长无缝构成的一个连续体。这就意味着,每种“颜色”各自的疆界,实则都是被武断决定的,并被固化在某个指号上。不同的语言,有不同的颜色指号系统,也就是说,可见光谱在不同语言中,以不同的方式被分割,由此“武断”地产生出各种疆界。
而进一步的问题在于,疆界一旦形成,会使人产生认知偏差。萨波斯基写道:
给某人看两种类似的颜色。如果那人使用的语言刚好在这两种颜色之间划分了疆界,他/她就会高估这两种颜色的差异。假如这两种颜色落在同一类别内,结果则相反。[20]
萨氏认为,要理解这种被疆界所宰制的认知行为,就需要越出学科疆界进行研究,如此才能避免作出片面解释。[21]在本文讨论的脉络中,我们可以定位到如下关键性的要素:人脑所采取的“模拟模式”。
人的认知,无法以大语言模型所采取的精确的“数字模式”展开。采用“数字模式”的大语言模型,其知识实践不但具有精确性,并且能够无障碍地跨越疆界。无论认肯与否、接受与否,我们正在迈入一个“后人类的世界”,在其中大量“非人类”(nonhumans)亦是知识生产的中坚贡献者,是参与世界化成的重要能动者。[22]
然而,在这个后人类世界中,采取“模拟模式”的人类的知识实践——当其努力克服疆界宰制来展开实践时——对于世界化成而言,却仍然至关重要。
我们有必要看到:以ChatGPT为代表的大语言模型,诚然是堪称“通用”的大“专”家,知识覆盖几乎无死角,但它精于回答问题,却拙于创造新知。语言学家诺姆•乔姆斯基将ChatGPT称作“高科技剽窃”[23]。话虽尖刻,但按照我们关于“剽窃”的定义,大语言模型的知识的的确确全部来自于对人类文本的预训练——这就意味着,即便通过预测下一个词的方式,它能够做到源源不断地生成“全新”的文本,但却是已有文本语料的重新排列组合。换言之,大语言模型无法原创性地创造新知。
大语言模型用规模提升(scale)的方式让自身变“大”,从而“涌现”出近乎通用的智能。然而,它在文本生产上的“潜能”(potentiality)却是可计算的——尽管那会是天文数字。而人类的“模拟模式”,不仅使其跨越学科疆界展开知识实践成为可能,并且使其“潜能”无可精确计算——要知道,人的知识实践,在生物化学层面上呈现为超过一千亿个大脑神经元用电信号进行复杂的彼此“触发”。尽管两个神经元之间的“触发”与“不触发”可以用数字形态(0和1)来表达,但整个大脑的“生物性计算”进程,却无法予以数字化。大脑这个“湿件”(wetware),实则是一个不透明的黑箱。
以保罗·麦克莱恩为代表的神经科学家们,把大脑区分为主导自主神经系统的中脑和脑干、主导情绪的边缘系统、主导逻辑与分析的皮质(尤其前额叶皮质)这三层不同的区块。[24]然而诚如萨波斯基所言,这又是把“一个连续体类别化”(categorizing a continuum)的经典操作,这些区块只能当作“隐喻”,那是因为,“解剖意义上这三层之间很大程度重叠”,“行为中的自动化面向(简化来看这属于第一层的权限)、情绪(第二层)和思考(第三层)并非分离的”。[25]
由于大脑具有可塑性(譬如,盲人的视觉皮质经由训练能用于处理其他信号,大幅强化触觉或听觉),并且每年都有大量新的神经元生长出来——人终其一生,都具有不断更新其知识实践的潜能。政治哲学家吉奥乔•阿甘本曾提出“潜在论”(potentiology),其核心主旨是,不被实现的潜能具有本体论的优先性。阿氏本人将“潜在论”建立在对亚里士多德学说的改造之上。[26]在笔者看来,“潜在论”的地基,实则应该是当代神经科学与计算机科学:正是因为人类大脑采取“模拟模式”,人才会是如阿甘本所描述的“一种纯粹潜能的存在”(a being of pure potentiality)。[27]所有被特殊性地实现的东西(包括人类整个文明在内),都仅仅是这种纯粹潜能的“例外”。人,可以原创性地创造——亦即,从其纯粹潜能中产生——新事物。
同人类相比照,大语言模型具有潜能,但不具有潜在论意义上的纯粹潜能:“数字模式”使得其潜能变得可计算,亦即,可穷尽性地全部实现(仅仅是原则上可实现,实际操作将耗费巨额算力);换言之,它没有纯粹的、在本体论层面上能够始终不被实现的潜能。ChatGPT能够跨越学科疆界生成极富知识含量的文本,但它做不到彻底原创性地生成新知——这件事辛顿所说的“超智人工智能”或可做到,但目前的大语言模型做不到。
有意思的是,在一个晚近的对谈中,OpenAI首席执行官山姆·奥特曼这样界定“通用人工智能”:
如果我们能够开发出一个系统,能自主研发出人类无法研发出的科学知识时,我就会称这个系统为通用人工智能。[28]
按照奥特曼的上述界定,现阶段包括GPT-4在内的大语言模型尽管已然是堪称“通用”的大“专”家,但却仍未能抵达通用人工智能的境界,因为它们仍无法“自主研发”新知。与之对照,不同学科领域的人类“专”家,却可以通过彼此交叉、互相触动的知识实践(甚至通过和ChatGPT的对话),既能够“温故”,也能够“知新”,并且能够“温故而知新”。
人不仅是“说话的存在”,同时在本体论层面上是“一种纯粹潜能的存在”。正是在纯粹潜能的意义上,即便生活在大语言模型时代,我们亦不能躺平。
量子思维:论知识实践的原创性(II)
进而,对于思考人类在大语言模型时代展开跨学科知识实践的必要性问题,我们可以进一步引入量子思维。量子思维,顾名思义是量子物理学的诸种“诡异”(spooky,阿尔伯特·爱因斯坦所使用的形容词)发现所引入的思考视角。
量子物理学家、女性主义者、后人类主义者凯伦·芭拉德2007年推出了一本广受赞誉的巨著,题为《半途遇上宇宙》(Meeting the Universe Halfway)。[29]量子物理学的实验结果揭示出,人实际上总是半途(halfway)地遭遇宇宙,不可能整个地碰见它。你能知道动量,就注定会不知道位置,知道位置就不知道动量。动量、位置乃至温度、密度、湿度等,都是人类语言设定出的概念,而不是宇宙本身的属性。[30]
时至今天我们所知道的那个世界,只是人类半途构建出来的“世界”,所有人类知识(甚至包括量子力学本身在内),都属于“智人”让自己安身其中的这一半“宇宙”——它可以被妥切地称作“符号性宇宙”(symbolic universe)。[31]
这也就是为什么诺贝尔物理学奖得主尼尔斯·玻尔曾说,“‘量子世界’并不存在”[32]。玻尔可谓量子力学的核心奠基人,他竟然说“量子世界”并不存在?!他的意思是,“量子世界”仅仅是一个由量子力学的各种概念、方程与描述构建起来的“世界”,换句话说,属于人类半途认识的那个“宇宙”。人的认识本身,就是在参与“宇宙”的构建。[33]
即便你是一个迈出学科疆界的终身学习者与知识生产者,你也只能半途遇见宇宙,遇见人类(包括你本人)参与构建的那半个“宇宙”。这就意味着,任何整体化的尝试——尝试用已有知识已有做法来判断一切事情、处理一切事情——都注定要失败。你觉得你学富五车,读了很多书,总是忍不住对身边伴侣说“你不应该这样想”“你怎么就不懂”,其实就是在把自己的知识整体化。一个国家看到别的国家跟自己做法不一样就受不了,想方设法“卡脖子”逼迫对方就范、想使其变成跟它一样,这同样是不恰当的整体化思维。政治学者弗朗西斯·福山把这种整体化思维美其名曰“历史的终结”。[34]历史终结论,就是缺乏量子思维的产物。[35]
面对大语言模型,我们确实要对它的学习速度、对其堪称“通用”的大“专”家水平心悦诚服,而不是顽固秉持“我们更行”的人类中心主义态度。但我们仍然可以保有我们的智慧,仍然可以做一个名副其实的“智人”而不仅仅是“吃货”,如果我们学会使用量子思维的话。
大语言模型是用人类已生产的古往今来的文本语料预训练出来的。所有文本,都结构性地内嵌人类认知。这也就意味着,用文本语料训练的大语言模型再智能、再勤奋学习,至多也只能对人类所半途遇见的那一半宇宙了如指掌。它的知识无法整体化,无法思考因自身的出现而可能带来的“技术奇点”(technological singularity)。实际上,它无法思考任何一种“奇点”,因为“奇点”在定义上(by definition)标识了人类一切已有知识“失败”的那个位置。如史蒂芬·霍金所言,在奇点上所有科学规则和我们预言未来的能力都将崩溃。[36]
也就是说,如果大语言模型真的造成人类文明的技术奇点,它自己不会有办法来应对它。所以,人工智能的智能,解决不了它自己带来的挑战。[37]当问及ChatGPT会带来怎样的挑战时,它会给出自己“只是提供服务,不会带来任何威胁”等诸如此类的回答。
人,能思考技术奇点——“技术奇点”这个概念就是一群学者提出的。人——就像以往文明史上那些不断拓展已有知识边界的人——有能力去思考那半途之外的黑暗宇宙,一步步把“黑洞”(black hole)、“暗物质”(dark matter)、“暗能量”(dark energy)这些曾经或仍是深渊性的、只能用“黑”“暗”来描述的假说,拉进我们认知范围内的一半宇宙中——那个大语言模型可以掌握甚至是高精度掌握、并能模型化重构的“符号性宇宙”中。
今天,大语言模型已经深度参与世界化成,参与构建我们生活在其中的符号性宇宙。然而,我们不能躺平——大语言模型可以跨越学科疆界生成知识,而人可以跨越学科疆界生成原创性知识。霍金给我们带来了一个特别有分量的案例。患上渐冻症后,这位物理学家丧失了绝大多数具身认知的能力。2018年去世的霍金如果多活两年,2020年诺贝尔物理学奖大概率会同时颁给他,因为“奇点定理”(singularity theorem)是他和罗杰·彭罗斯共同构建的。更令人无比敬重的是,霍金在学术生涯中并没有躺平并止步于“奇点定理”,尽管这是达到诺贝尔奖级别并且最后收获该奖的研究成果。霍金后来提出的“无边界宇宙”(no-boundary universe)假说,就是绕过奇点(“大爆炸奇点”)这个设定来思考宇宙的智性努力。[38]至于更为世人所熟知的作为公共知识分子的霍金,则是源于他不断越出学科疆界的知识实践取得令人瞩目的成果。
结语
在同大语言模型知识实践的并置中,我们可以定位到学科交叉融合的必要性。
以ChatGPT为代表的大语言模型,尽管才刚刚进入人类的视野中,但已经在知识实践上展现出卓越能力,成为堪称“通”家的大“专”家。我们可以用“模拟模式”与“数字模式”来分别描述人类与大语言模型的知识实践。大语言模型问世前的人工神经网络算法(譬如AlphaGo),数字模式的知识实践仅仅令其在狭窄的垂直领域展露出卓越智能。然而以海量人类文本为训练数据的大模型,其知识实践则呈现出跨越领域疆界的通用性。
面对大语言模型在知识实践中的应用,我们不能躺平,不能躲在知识实践的舒适区。潜在论与量子物理学,给出了我们积极展开跨学科知识实践的理据。
(本文系国家社会科学基金重大项目“后现代主义哲学发展路径与新进展研究”的阶段性研究成果,项目编号:18ZDA017)
注释
[1]2023年3月29日,1000余位人工智能业界领袖联名呼吁立即暂停训练比GPT-4更强的人工智能。2023年5月30日,包括图灵奖得主杰弗里·辛顿、约书亚·本吉奥以及谷歌DeepMind首席执行官戴密斯·哈萨比斯、OpenAI首席执行官山姆·奥特曼、Anthropic首席执行官达里奥·阿莫代伊在内的超过350名人工智能行业研究人员、工程师和首席执行官,联合签署并发布如下声明:“降低人工智能带来的灭绝风险,应该同大流行病、核战争等其他社会级规模的风险一起,成为一个全球优先事项。”参见《AI可能灭绝人类!22字声明,ChatGPT之父和AI教父都签了》,2023年5月30日,https://www.thepaper.cn/newsDetail_forward_23282744;《马斯克率一众科技圈大佬发声:应暂停训练比GPT-4更强大的AI系统》,2023年3月29日,https://baijiahao.baidu.com/s?id=1761688767716274674。
[2]参见《首本由ChatGPT写的实体书出版,国内出版界如何应对?》,2023年2月28日,https://baijiahao.baidu.com/s?id=1759063407725941025。
[3]参见
吴冠军
:《再见智人:技术-政治与后人类境况》,北京大学出版社,2023年。
[4]S. Bubeck et al., "Sparks of Artificial General Intelligence: Early experiments with GPT-4," 22 Mar 2023, https://arxiv.org/abs/2303.12712.
[5]在这个论述中,“常见”与“大量出现”很重要,因为大语言模型计算的是概率分布,如果某个错误(譬如,“天是橙色”,事实错误抑或错别字)很少出现,那么模型的输出便绝不会出现这种错误。
[6]关于大语言模型独特的出错方式的进一步分析,参见吴冠军:《大语言模型的信任问题与资本逻辑》,《当代世界与社会主义》,2023年第5期;吴冠军:《大语言模型的技术政治学研究——知识生产的后人类境况与意识形态批判》,《中国社会科学评价》,2022年第5期。
[7][12][13]G. Hinton, "Two Paths to Intelligence," 10 June 2023, https://mp.weixin.qq.com/s/_wXjuAo7q5Nkn1l_ormcmQ.
[8]参见吴冠军:《从人类世到元宇宙——当代资本主义演化逻辑及其行星效应》,《当代世界与社会主义》,2022年第5期;吴冠军:《人类世、资本世与技术世——一项政治经济学-政治生态学考察》,《山东社会科学》,2022年第12期。
[9]除了生物性的“默会知识”(分享困难且极其不精确)外,智人在分享知识时主要倚靠符号性-话语性的“蒸馏”。
[10]为了降低大语言模型的运行能耗,辛顿同其合作者提出使用蒸馏方法,将原始数据集上训练的重量级模型作为教师,让一个相对更轻量(参数更少)的模型作为学生,对于相同的输入,让学生输出的概率分布尽可能地逼近教师输出的分布。于是,大模型的知识就可以通过这种监督训练的方式“蒸馏”到小模型里。小模型的准确率下降往往很小,却能大幅度减少参数量,从而降低对硬件和能耗的需求。See G. Hinton; O. Vinyals and J. Dean, "Distilling the Knowledge in a Neural Network," 9 March 2015, https://arxiv.org/pdf/1503.02531.pdf。
[11]吴冠军:《有人说过“大他者”吗?——论精神分析化的政治哲学》,《同济大学学报(社会科学版)》,2015年第5期。
[14]关于教学实践的进一步讨论,参见吴冠军:《后人类状况与中国教育实践:教育终结抑或终身教育?——人工智能时代的教育哲学思考》,《华东师范大学学报(教育科学版)》,2019年第1期。
[15]故此,辛顿呼吁年轻一代研究人员要努力“弄清楚如何让人工智能在不获得控制的情况下,为我们生活更好而奋斗”。See Hinton, "Two Paths to Intelligence"。
[16]《〈咬文嚼字〉发布“2021年十大流行语”:双减、躺平、元宇宙等入选》,2021年12月10日,https://new.qq.com/rain/a/20211210A08A2800。
[17]I. Sutskever and C. Smith, "Episode #116," 15 March 2023, https://www.eye-on.ai/podcast-archive.
[18]一旦能指与所指的对应被固化(比如,被理解为“自然的”),那就会出现“形而上学/元物理学”(meta-physics)——一门以本质主义的方式研究“being”(是什么)的学问。
[19][20][21][25]R. M. Sapolsky, Behave: The Biology of Humans at Our Best and Worst, New York: Penguin, 2017 (ebook), p. 14, pp. 29-30.
[22][30]吴冠军:《从元宇宙到量子现实:迈向后人类主义政治本体论》,北京:中信出版集团,2023年,第371~373页。
[23]"Noam Chomsky on ChatGPT, Universal Grammar and the Human Mind: Unlocking Language and AI Mysteries," 29 July 2023, https://www.youtube.com/watch?v=VdszZJMbBIU.
[24]P. MacLean, The Triune Brain in Evolution, New York: Springer, 1990.
[26]参见吴冠军:《生命权力的两张面孔:透析阿甘本的生命政治论》,《哲学研究》,2014年第8期;吴冠军:《阿甘本论神圣与亵渎》,《国外理论动态》,2014年第3期。
[27]G. Agamben, "The Work of Man," in M. Calarco and S. DeCaroli, Giorgio Agamben: Sovereignty and Life, Stanford: Stanford University Press, 2007, p. 2.
[28]《Sam Altman预言2030年前出现AGI,GPT-10智慧将超越全人类总和!》,2023年9月7日,https://new.qq.com/rain/a/20230907A04O0Q00。
[29]K. Barad, Meeting the Universe Halfway: Quantum Physics and the Entanglement of Matter and Meaning, Durham: Duke University Press, 2007.
[31]吴冠军:《陷入奇点:人类世政治哲学研究》,北京:商务印书馆,2021年,第93~115页。
[32]See A. Shimony, "Metaphysical Problems in the Foundations of Quantum Mechanics," lnternotionol Philosophical Quanerly, 1978, 18(1); A. Petersen, "The Philosophy of Niels Bohr," Bulletin of the Atomic Scientists, 1963, 19(7).
[33]物理学家约翰·惠勒(“黑洞”概念的提出者)甚至提出了“参与性宇宙”(participatory universe)命题。详细讨论参见吴冠军:《从元宇宙到量子现实:迈向后人类主义政治本体论》,第373~375页。
[34]F. Fukuyama, "The End of History?" The National Interest, 1989, Summer.
[35]进一步的分析,参见吴冠军:《量子思维对政治学与人类学的激进重构》,载钱旭红等:《量子思维》,上海:华东师范大学出版社,2022年。
[36]S. W. Hawking, A Brief History of Time: From the Big Bang to Black Holes, New York: Bantam, 2009, p. 84.
[37]参见吴冠军:《通用人工智能:是“赋能”还是“危险”》,《人民论坛》,2023年第5期。
[38]S. W. Hawking, The Theory of Everything: The Origin and Fate of the Universe, Beverly Hills: Phoenix Books, 2005, p. 113, pp. 98-99.
责 编∕张 贝
Knowledge Practices Facing Large Language Models
Wu Guanjun
Abstract: In the juxtaposition with large language models' knowledge practices, we can locate the necessity of interdisciplinary integration. Large language models, represented by ChatGPT, although having just entered our horizon, have already demonstrated exceptional capabilities in knowledge practices, becoming akin to "generalists" in expertise. We can characterize the knowledge practices of humans and large language models respectively as "simulation mode" and "digital mode". Before the advent of large language models, the digital mode of knowledge practices in artificial neural network algorithms only allowed them to exhibit superior intelligence within various narrow vertical fields. However, large language models, trained on massive amount of human texts, exhibit a generality that disregards domain boundaries. Faced with the overwhelming superiority of large language models in knowledge practices, what should humans do? Potentiology and quantum physics provide the rationale for actively engaging in interdisciplinary knowledge practices.
Keywords: large language models, posthuman, simulation mode, digital mode, pure potentiality, quantum thinking
吴冠军,华东师范大学二级教授、政治与国际关系学院院长,华东师范大学中国现代思想文化研究所暨政治与国际关系学院教授、博导,教育部“长江学者”特聘教授。研究方向为政治哲学、生命政治学、技术政治学、生态政治学、媒介政治学、电影哲学、精神分析学、当代欧陆思想、当代中国思想。主要著作有《从元宇宙到量子现实:迈向后人类主义政治本体论》《再见智人:技术-政治与后人类境况》《陷入奇点:人类世政治哲学研究》《现时代的群学:从精神分析到政治哲学》等。