建构文化人工智能的可能路径_原创精品

【摘要】生成式人工智能大模型的发展表明，新一代人工智能通达通用人工智能的目标正在接近。而通用人工智能要实现通用性、人性化和广泛应用，具有人类文化特征的属性是其必备的要件。将意识、情感、伦理等高级认知因素嵌入人工智能系统，也就是建构具有人性的文化人工智能，无疑是一种可能出路。如何让人工智能成为文化人工智能这种具身人工智能是一个重大挑战。从哲学方法论审视，建构文化人工智能的可能路径包括，智能体的范畴论与语境论的整合，感性与理性的整合，通过机制进行功能建模，通过结构功能实现适应性表征，以及通过语境觉知应对意外情况，最终通过严格的“图灵测试”。如果这些都做到了，就有望在人工智能系统中嵌入人类特有的文化特征，使其成为具有人性的文化人工智能。

【关键词】大语言模型通用人工智能具身人工智能文化人工智能适应性表征

【中图分类号】B15/TP18 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2024.14.004

【作者简介】魏屹东，山西大学哲学学院教授，博导，教育部人文社会科学重点研究基地山西大学科学技术哲学研究中心学科带头人。研究方向为科学史与科学哲学、认知哲学和人工智能哲学。主要著作有《科学表征：从结构解析到语境建构》《科学认知：从心性感知到适应性表征》《认知哲学手册》《认知科学哲学问题研究》《广义语境中的科学》《爱西斯与科学史》等。

如果说生成式人工智能（Generative Artificial Intelligence, GAI）大模型是走向通用人工智能（Artificial General Intelligence, AGI）的第一步，那么文化人工智能（Cultural Artificial Intelligence, CAI）则是通用人工智能的最终目标。这意味着，人工智能更智能、更人性的策略应该是让其具有人类特有的文化特征，[1]诸如道德、情感、责任和语境理解力等。如果能够将这些人类特有的文化特征嵌入机器系统，那么通用智能的实现就不仅仅停留于设想或理念上了。问题是如何嵌入呢？本文试图阐明，在方法论上将范畴论与语境论相整合，将感性与理性相整合，通过机制进行功能建模，通过结构功能实现适应性表征，以及运用语境觉知应对意外事件，且在功能上完全通过“图灵测试”，就有望在人工智能系统中嵌入文化特征，使其成为具有类人智能和人性的具身人工智能（Embodied Artificial Intelligence, EAI）。

路径一：智能体的范畴论与语境论整合

范畴是人工智能解决自然语言处理和理解问题的一个核心概念。范畴是有语境的，哲学范畴论和语言范畴论天然地与语境论契合，下文谈及的语境觉知（也称态势感知）就是范畴论的具体应用。事实上，由于范畴与概念分类相关，语境与意义相关，范畴与语境这两个概念及其理论——范畴论与语境论——都深深地打上了人类文化的烙印。可以说，在人的世界里，任何可言说（如自然类）和不可言说（物自体）的东西，都可以范畴化和语境化。区别在于，可言说的东西是可观察和检验的，不可言说的东西则不能，所以后者往往只存在于概念或理念中，如金山等。在表征的意义上，这些表达往往存在无实际指称对象的问题，因而会引起争论，如夸克等。在数学中，范畴论将统计的人工智能与符号的人工智能[2]（基于符号逻辑的演绎方法）的结构性范畴论整合，即将归纳型人工智能与演绎型人工智能的范畴整合。[3]可以说，范畴整合的人工智能有助于解决目前人工智能研究所面临的主要问题，使人工智能更加科学规范、可验证、负责任、人性化，从而推动人工智能社会的发展。

从历史角度看，范畴论经历了从20世纪初的集合理论（set theory，基于元素的实质主义），到20世纪后期的范畴论（category theory，基于关系的功能主义），再到21世纪的范畴科学（category science，基于信息学、物理学、人工智能和认知科学）的演变。基于范畴的人工智能享有范畴论的图解弦图微积分（the graphical string diagram calculus of category theory）所带来的优点，特别是它为线性代数（基于矢量）计算提供了一种有效方法，大多数人工智能系统将对象表征为特征矢量，其计算可以在分类图形微积分中有效进行。

这种范畴整合的实质是将范畴论作为统一构架整合两种人工智能，在科学哲学中是发现与确证的综合，是赖欣巴哈的“发现的语境”和“确证的语境”在人工智能领域的应用（见图1）。

在乔姆斯基与谷歌研究总监诺维格（Norvig）关于智能本质的辩论中，乔姆斯基站在符号人工智能的一方批评了统计人工智能，诺维格将乔姆斯基的批评表达如下：统计语言模型在工程上取得了成功，但这与科学无关……准确地对语言事实进行建模只是收集蝴蝶（butterfly-collecting），即收集材料；在科学（特别是语言学）中重要的是基本原则……统计模型是不可理解的；它们没有提供洞察力。[4]而诺维格认为统计方法是必要的，因为语言的偶然性及其受制于复杂的文化演变，很难用符号方法来模拟，语言是复杂的、随机的、偶然的生物过程，受制于进化和文化变化的奇思妙想。构成语言的东西不是一个永恒的理想形式，而是复杂过程的偶然结果，由设置的少数参数来表征。由于这种结果是偶然的，它们似乎只能用概率模型来分析。

文化因素的确对认知方式有重要影响，忽视文化因素我们就无法说明人类智能的爆发式增长。如果说生物进化是智能发展的必要自然条件，那么文化因素就是充分社会条件。在自然环境不变的前提下，文化的出现和演化对于智能的提升至关重要。当然，整合的人工智能是否会使人工智能更加可验证、符合道德规范，从而更加人性化，还需要不断验证，但这种尝试对于人工智能普及中的社会信任、透明度、安全和保障非常重要。而且，这种将范畴论和语境论整合的方法不仅有助于科学和知识的网络化，也有助于知识和社会的可持续发展。显然，这种范畴整合观点是一种跨学科方法，有助于解决单一学科无法解决的问题。文化人工智能（CAI）也是这种目的，只是整合方式稍有不同：范畴整合主要采用数学和信息科学方法，文化整合还同时结合了哲学语境论方法。

事实上，范畴论业已结合了科学哲学方法。一个典型的例子是一种涌现逻辑的信息处理系统[5]，它将认知作为流程图，使用一种受流程图和控制论表征法启发的形式主义，其主要假设是：在自我生成的评价信号指导下，从联结主义活动中涌现一个符号形式的过程。这种涌现逻辑的信息处理方法将所考虑的系统表征为一个连接在一起的处理单元的图形，处理单元由节点表征，它们的连接由称为路由的加权和定向弧表征。该系统有三种类型的单元：表征系统传感器器官的源单元、表征运动器官的槽单元和既不是源也不是槽的图节点的路由单元，这些单元共同构成了一个流动扩散网络。研究表明，这种涌现逻辑的信息处理系统通过感知经验建立知识，在不同的发展阶段其内部结构会自我组织，并使内部表征和感官知觉之间出现内部对话；系统的所有经验都与指导学习机制和影响结果行为的情感反应有关，智能体的想法是概念的构建序列，概念表征环境感知的组合，思想则表征了它们之间的关系。

总之，对于一个自生成的智能体来说，成功通过“图灵测试”的能力将要求系统被赋予与人类相同的传感器模式（具身模式），并对世界产生接近于人类个体的经验（包括文化属性），个体经验则具有了对环境（自然和社会）变化的适应性。

路径二：智能体的感性与理性整合

人类智能是感性与理性的统一。人工智能通常是在两个步骤中适应变化：一是确定与智能体或系统有关的变化；二是更新系统结构、数据、知识或决策逻辑来适应变化。识别与智能体任务有关的变化是至关重要的。如果我们认为“一个普遍的智能系统应该能够处理与其创造者所预期的完全不同的问题和情况”，[6]那么AGI或CAI系统的智能体应有能力适应其环境的变化。具体来说，智能体的任务是将其表征的目标构成马尔可夫决策的过程（Markov Decision Process, MDP）。根据这种表征，智能体不直接访问其环境的状态，相反，它通过传感器进行关于这些状态的“观察”。如果给出关于各种状态和它们之间相互转换的奖励结构，智能体就能找到一个策略，使它能够执行一连串的行动来实现一些期望的状态，从而实现其目标。[7]比如，信息数字孪生系统假设智能体的输入和输出的概率分布抓住了其任务的变化，因而可预测其环境的变化，[8]而且它检测到的变化可以传达给智能体的操作者，以进行必要的修改，或者可作为智能体模型的输入，以补偿变化带来的影响。也就是说，智能体与环境的互动与人类的交流类似，是一个交互过程。智能体的开发者根据智能体要感知的状态和要执行的行动来定义传感器和效应器。智能体的任务变化将导致“输入-输出”特征产生依赖性变化，或者利用“行动-输入”特征的相关性来捕捉智能体的任务中不可预见或未预见到的任务变化。

这个过程是人工智能体的适应性表征过程，是一种包含了推理的认知行为。[9]从哲学角度看，康德在《纯粹理性批判》中区分了认知的三种基本心理能力：感性能力、理解能力和理性能力（即感性、知性和理性）。人类首先通过感性能力感知物体或世界，从而形成对它们的表征，最终实现更复杂的概念化并在此基础上进行推理。康德从两个方面将三种基本心理能力区别开来：把感性能力解释为人类和其他动物接受信息的具体方式，与理解能力和理性能力不同，后两种能力是人类或所有理性的人的自发性形式。[10]

从康德哲学看，人工智能是一种理性的存在。这种人工存在物必须具备感性能力、理解能力和理性能力，这是其感知外部世界的基础。统计的人工智能在物体识别或模式识别方面非常成功，如人脸识别、场景识别，而这对人类而言通常是由直觉完成的，因此可以说在机器认知中允许有感性的能力。符号的人工智能适合于对世界和其中的对象进行概念性推理，从而允许有理解和理性的能力。[11]在这种康德式的认知或智能概念中，感性能力、理解能力与理性能力都是理性的人不可或缺的心理能力。[12]因此，符号人工智能和统计人工智能都是实现AGI的最终目标所必需的范式。

从科学和逻辑的观点看，统计人工智能是一种基于归纳的、自下而上的方法，而符号人工智能是一种基于演绎的、自上而下的方法。在科学理论的形成中，两种方法均发挥了重要作用。比如，相对论和量子理论是以自上而下的方式诞生的，即遵循一般原则的指导，如广义相对论中的一般协变原理；[13]另一些理论则是以自下而上的方式诞生的，如生物学和天文学，即直接考虑经验数据。AGI或CAI应该整合符号人工智能和统计人工智能，即形成两者整合的人工智能，从而使智能体产生自主性。

这意味着，通用智能必须具有某种自主或自发性。没有自主性，智能体只是被动的，只处理操作者设定的符号串等给定的信息。关于自主性的条件，IBM在关于智能体的战略白皮书中作出了解释：智能行为体（intelligent agent）是一些软件实体，它们以某种程度的独立性或自主性进行一些操作……，同时，采用一些关于……目标或愿望的知识或表征。[14]

在这个意义上，人工智能没有创造性，创造性是智能的一个整体特征。为了拥有创造性，智能体必须是自主的，必须自发地作出判断，并根据一些内部目标或欲望选择一个选项而排除其他选项。而自主性和自发性与自我意识有关：自主性意味着智能体意识到某物或自己的存在，自行设定一个无论是明确的还是隐含的目标，并朝着这个目标改进自己，这也是人工意识研究的目标。

当然，CAI并不能仅体现在概念中，它必须体现在物理基质中，类似人的身体，即具有具身性，并嵌入环境，这是嵌入式人工智能的另一个名称——情境人工智能或海德格尔式人工智能。[15]这里的具身性是指身体的存在对智能体来说是必不可少的，嵌入性是指与环境的互动对智能体来说是必备的。从具身性的观点看，心智、身体和环境之间的相互作用被认为是实现人类水平的AGI和人性化的CAI的必要条件。

路径三：通过机制进行功能建模

人工智能大模型的发展表明，实现AGI必须从功能建模开始，CAI也不例外。通用问题解决能力是指一种类人水平的、通过抽象推理解决通用问题的能力，这种能力通过适应性建模得以体现。比如，一种作为通用智能的功能建模框架[16]（Functional Modeling Framework, FMF）表征了人类有机体的适应性过程的层次结构，其中每个适应性过程的功能是在其各自领域中实现一个普遍的适应属性（机制）。FMF将一个智能体表征为一个适应性过程的层次结构，并通过这些过程使其所有的过程更加适合。也就是说，FMF定义了对基本生命过程和实现这些过程的组件的要求，让智能体的认知架构来定义自己的实现，以确保在执行给定的任何任务时，任何所需功能都可以由最适合的组件从现实世界中获得，同时确保整个实现模型更适合表征认知。换句话说，与其将通用智能定义为一个单一的适应性系统，不如让其中的适应性领域在其功能上受到限制，即让其模块化和可重复使用。因此，适应性领域可以被调整而无需改变整个系统。针对问题定义和问题解决的一些限制可能存在于每个适应性领域，而每个适应性领域可能缺乏改变其自身适应性功能的能力。如果要消除对其适应性的限制，则每个适应性领域必须存在于其他适应性领域的层次结构中。

显然，FMF中的通用问题解决能力是指它能够持续地浏览整个概念空间的能力，即浏览从该概念空间可定义的任何问题和可制定的任何解决方案的能力。一个非智能系统，如目前的计算机程序，可以解决它的设计者为它选择的问题，而一个具有类人通用问题解决能力或真正的人类智能系统，必须有能力自己选择解决哪个问题。这个通过认知浏览适应领域所定义的概念空间的好处在于：将所有认知过程的表征局限于其中，即认知过程接受一个概念作为输入，并产生另一个概念作为输出（从概念到概念），使我们能够理解认知系统能做什么和不能做什么。因此，这个模型有可能具有类人的通用问题解决能力，它在定义一套最小可还原的认知功能方面也具有潜在价值。

我们不妨设想一下，如果将具有这种功能建模的智能体进行人机交互或多智能体交互，智能体的能力似乎会更强（因交互而产生了部分文化属性）。皮亚杰建模器[17]就是一个应用实例。皮亚杰建模器是一个由多个异质元素组成的认知架构，这些元素被称为机制，它们操纵一个知识库并与外部设备进行交流。皮亚杰建模器作为一种认知架构有四类机制[18]：观察、协调、反思和巩固（合并）（见图2）。观察机制与现实或虚拟世界中的设备进行通信，并对知识库中的观察物进行断言；协调机制执行简单和复杂的关联、信念传播、计划和推理，以便向知识库添加推论；反思机制执行动机、模拟、调节、补偿、发现、探索、模仿和游戏，从而影响建模者的行为；巩固机制执行自动性、知识压缩和遗忘。总体来说，多智能体的认知系统中每个智能体均作为一个独立的知识操纵机制发挥作用。这些机制通过连接的设备共同观察环境、协调推理、反思和修改系统的行为，并巩固由神经符号元素组成的记忆网络。作为通用智能的CAI的目标就是构建这种在推理和决策方面符合人类水平的机制系统，这也是人工智能中的机制主义策略。[19]

预测加工是又一个实验例子。[20]我们可将通用智能视为一个预测加工系统，它衡量智能体在广泛的环境中实现目标的能力，也就是说，通用智能衡量的是一个机制解决预测问题的能力。通用智能体一定是目标追随（goal-following）的，或像人类智能那样有智能的预测定义和常识-科学心理测量的定义。因此，一个离散时间通用强化学习模型可被简化为算子归纳。这种预测加工模式很好地对应了人工智能的任何一种强化学习或目标追随智能体，并可适用于解决其他类型的问题。比如，一种适应性多策略市场营销智能体[21]（Market Making Agent），本质上是在有限资源和复杂环境中达到复杂目标而定义和设计的一种适应性智能体（Adaptive Agent）。该实验侧重于在集中式交易所提供流动性算法交易智能体的方法和架构中，执行基于限价订单网格的营销策略，并不断进行经验学习。该实验将通用智能体视为一个普遍的多参数优化，通过对历史上的加密金融市场数据进行回测，在评估市场条件下能够提供近100%的超额回报，这是适应性表征方法论的一个成功案例。

在对话聊天领域，通用对话智能（GCI）是通用智能体的一个核心方面。但目前只有少数通用智能架构能够理解和生成自然语言，而大多数自然语言处理系统要么依赖于硬编码的专门规则和框架，无法普及到人类语言的各种复杂领域，要么依赖于大量训练的深度神经网络模型，无法实现解释、控制或理解，[22]如GPT模型。而且，尽管大多数通用智能架构确实拥有某种程度的自然语言理解，但若没有基于模板的定制或类似的手动、劳动密集型程序，就无法用自然语言传达这种知识，无法对人类提出的问题进行恰当回应。不过，一种基于语境的问题回答（QA）架构建立在句子生成系统的扩展之上，作为一种可解释的自然语言处理方法[23]（Interpretable Natural Language Processing, INLP），它是可解释人工智能的延伸，即通过要求可解释的模型／知识库和可解释的结果来扩展可解释人工智能。研究表明，INLP能够以合理和透明的方式获取自然语言，理解基于文本的信息，并生产语言内容。[24]

目前最典型的通用智能莫过于ChatGPT系列。ChatGPT不仅被视为人工智能领域一个标志性的技术进步成果，而且肇始了AGI的应用。据测试，GPT-4不仅能够与用户对话，而且在提示下能够自动生成各种文本，诸如剧本、论文摘要、参考文献和企划方案。这种人工智能生成的内容跨越了几乎所有学科领域，其抽象推理和思维能力在许多方面达到了人类水平，初步实现了AGI的一些目标。若让大多数人都能够使用，在普及的意义上就达成了通用性。ChatGPT这种大语言模型的关键创新在于其通过计算一个语句中每个词之间的相关度（概率值），能够确定每个词在语句中的位置（语序）及准确意义。这实质上是通过计算方法确定了每个词在语句中的意义，最终给出文本内容，这是将语境信息数字化的结果。所以，ChatGPT充分利用了语境原则——语境决定词的意义，也就具有了一定的文化特性。

要言之，语言是人类独有的，是认知智能的最高表现。ChatGPT作为大语言模型，尽可能地让人工神经网络模型的行为与人类对齐，充分体现和展示了语言的认知功能，其应用前景非常广泛。但其局限性也比较明显，包括数据使用问题（仅开发者掌握）、标注者偏差问题（基于强化学习导致的标注者的偏好）、事实性和可解释性问题（编造一些语句，内部运作难以解释）、资源消耗问题（巨量数据造成巨大资源的消耗）以及多模态问题（嵌入图像、语音识别等），若将ChatGPT从通用智能提升到CAI，这些缺陷或许可克服。

路径四：通过结构功能实现适应性表征

通用智能作为适应性表征系统，同构类型理论[25]可作为其理论基础。在人工智能中，同构类型理论为符号人工智能的经典问题提供了框架，但表征问题是无法避免的，只能通过建设性方式来解决。有研究表明，同构类型理论适合于构建认知架构的语言，但它本身并不足以构建一个通用智能系统——包含基本类型和操作，以及那些以不严格的、可证明的方式（在可用的类型本身）改变已经定义的类型。[26]这可能意味着，即使是基础数学概念的语义也不够清晰，人类自己也没有完全理解。然而，同构类型理论仍然是有吸引力的，因为它不是单独使用集合和逻辑的元语言，而是只使用范畴或类型，包含了对象和命题，而命题也是高级类型的对象。这对于通用智能在统一和建设性地表征和推理外部世界以及推理本身的知识方面是很方便的。

从结构-功能主义看，任何物体都有结构，有什么样的结构就会有与之相应的功能表现。从亚原子到宇宙学的所有空间尺度的观察表明：物质结构，包括要素的排列和构成，产生了大量适应结构的自然现象。比如，笛子上的孔会产生悦耳的声波，流体流过障碍物会导致湍流，镜子会反射光线，金属线会传导电流，蛋白质分子会折叠和振动，弹性材料会拉伸等，这些都是物质固有的适应性表征（呈现）行为。这些物理现象的发生源于物质和能量相互作用的各种方式，如力、热、声、光、电、磁等，人类创造、发明并显示这些自然现象的结构为己所用。这种以物理结构为导向的观点证明了可解释生物体所表现出的各种自然智能，包括但不限于病毒、植物和动物。因此，所有有机体都是结构化的。结构生物学业已说明：一组结构为固有现象提供了平衡，即维持一个稳定的内部环境，因为结构是生物功能的核心。同样，生物物理学、生物化学和生物医学，都可被看作是对适当的结构产生现象的研究，如假肢使用者对假肢的适应平衡。

因此，结构不仅产生物理行为，也产生认知和智能行为。若嵌入了适当物理结构的人工智能体被设计出来，那其将显示出类似于生物形式的智能行为。这与以数字计算为中心的设计截然不同，这样的具身智能体可能在现实世界中能够有稳健、灵活的行为，而这是迄今为止人工智能还无法做到的。如果认知智能被理解为“深思熟虑的反应”[27]，那么这将意味着生命形式包含的结构所表现出的现象（如生存和繁殖）使它们表现出智能行为。比如，仙人掌的荆棘和厚叶的适应性帮助它们抵御捕食者并储存水分，粘菌能够通过感知化学梯度的变化向食物源方向迁移，人类也是如此。

在人工智能领域，这会导致一种结构化物理系统假说[28]：一个结构化的物理系统能够具有充要条件并作出具身智能反应。这种假设可能会导致非人类物种的产生：它们对世界的体验与生物的体验基本相似，它们对世界的不同体验足以产生新的、对人类有用的功能。然而，在虚拟现实中模拟智能体然后将其实例化为现实生活中的具身系统，会不会导致生命体验的无缝转移？这一问题可由适应性表征来解释，原因在于，任何系统（物理的、生物的或认知的），只要它们是自组织演化系统，都具有适应性表征功能或能力，这种功能或能力表现为不同层次的属性，如原子的协同、细胞的进化、生物体的行为和人类的认知。这些不同类型的表现或表征，类似于“柏拉图表征假设”[29]（不同的人工智能模型正趋向于一个统一的现实表征），其背后的机制是适应性表征，[30]即不同的模型表征逼近一个现实目标。如果这种假设被确证，那么自然认知和人工认知之间的无缝衔接中介就是适应性表征。[31]

一个典型的例子是由情感生物激发的认知架构（Emotional Biologically Inspired Cognitive Architecture, eBICA），通过两种方式适应范式[32]：一是利用人的排名构建对象和行动评价的语义图；二是考虑到范式的具体情况，制定道德模式。结果证实该模型对所选范式的适用性，以此表明其在实际重要情况下的可用性。这是基于情感生物的认知架构，包括7个记忆系统（见图3）。这种情感生物激发的认知构架就是结构-功能表征，其中的7个记忆子系统及其交互构成了智能体的整体认知结构。因此，一个实体或系统，有什么样的结构就会有与之相对应的功能，如各种生物所表现的功能。人脑的结构基本相同，但每个人的神经元连接及其激活-抑制的方式与数量可能完全不同，从而造就了不同的认知方式和理解水平。这是结构决定功能的典型，适应性表征显然是基于结构-功能的，且具有综合性。

路径五：通过语境觉知应对意外情况

任何通用智能系统或实体，必须能够应对和处理新奇情况，[33]因为通用智能的一个目标便是学习新的信息而不覆盖先前的学习（如完全遗忘）。由于新奇总是相对于学习者的知识而言的，控制器处理新奇的方式通常是以先前有经验的情境作为指导。先前的经验就是语境知识，是一种经验启示法，这就要求通用智能模型能够应对各种已知情况和意外情况。传统的机器学习方法通常会学习许多虚假的关联，当面对新的任务时，可能会导致不可预测甚至灾难性的性能出现。因此，引入语境觉知（或态势感知）方法是必要的，因为先验知识是语境因素，这是由哲学语境论启发的方法。

在机器学习领域，任何以人类水平的智能为目标的机器，必须能够在其设计者未曾预见的新情况下自主地使用其先前的经验。这种知识转移能力通常是在这样的假设下进行的，即学习者在来源任务中接受训练，随后在另一个类似的目标任务中接受测试。然而，目前的人工智能方法在很大程度上依赖于人类程序员根据自己的直觉来选择这些任务。如何给智能体提供自主转移相关知识的方法仍然是一个难题，这实际上是预先给人工系统设置语境库，然后智能体自己能够依据具体情况自主灵活调用的问题。

从哲学上看，自主转移知识是一种因果能力，实现有效的自主概括能力是建立在因果建模和推理基础上的，同时使用与目标任务无关的知识表征。一种方法是让控制器引导智能体干预一个动态任务，从经验中发现和学习其因果关系。控制器从相关性的知识中引导智能体学习，通过战略性的因果干预消除非直接原因的相关性，即由共同外部原因引起的、虚假的或颠倒因果关系的相关性，同时学习与任务的因果变量相关的功能。模拟实验测试了这种控制器的知识转移的有效性，在不同的动态任务中的结果表明：该算法使控制器能够学习一个与任务无关的因果模型，而且该模型可以被推广到新的场景中。[34]

另一种方法是使用生态系统仿真器，自然智能可给予通用智能以启示，因为人工智能与自然智能之间存在天然的类比。[35]在生物系统中，动物认知是通过整合三个独立的网络来建模的：一是用于硬接线反射的反射网络；二是将氧气、水、能量和气味等感官数据映射到一个标量的感应值网络；三是用于选择行动的策略网络。在人工系统中，策略网络是用强化学习来训练的，其中奖励信号被定义为从一个时步（time step）到下一个时步的感应值之差。为了生存和繁殖，动物需要感知、决策和行动等高效的信息处理来应对生活中不断出现的挑战。神经系统几乎存在于动物界的所有分类群中，并在动物信息处理中发挥着关键作用，它们通常并不是单一的。例如，人类控制消化的复杂神经系统基本上与大脑分离，甚至在脑死亡的人身上也可运作。这意味着人脑本身是高度模块化的，其在解剖学上有不同的裂片和区域，如控制反射的脑干（积极的如膝反射，消极的如潜水反射），前额叶皮层将感觉信号映射到行动上，脑岛将内部信号（如血糖水平）和外部信号（如气味）结合成与感应和奖励有关的信号。[36]从进化的角度看，神经系统的一个巨大优势是它们能够进行学习，从而有效地适应当地的环境。强化学习是一个突出的例子，并适用于整个动物王国，[37]即将不可训练的反射回路与可通过强化学习训练的回路结合起来。

相比而言，机器人的行为也应该与此类似。正由于此，模拟动物行为就成为人工智能机器学习的主要方法。有许多受生物启发的算法或动物认知的计算模型，如细胞自动机、蜂群算法和蚂蚁算法，以及由进化算法驱动的反射智能体，都属于这一传统。在强化学习传统中，动物被建模为强化学习行为体（包括动物机器人），它们因快速的爬行、跑步、游泳或飞行而获得奖励。在生态系统建模的分析方法中，生物体通常用表征种群大小或生物量的数字来建模，而互动动力学则用微分方程来建模，如Lotka-Volterra捕食者-猎物动力模型。[38]

从适应性表征的角度看，一个通用智能体必须适应其环境和目标，用有限的资源解决未知问题，否则它就不会有智能。这里存在一个智能与心智（心灵）的区分及其关系的问题。如果二者不同，那么如何识别它们之间的差异呢？如果二者之间存在解释鸿沟，那么如何填平这种鸿沟呢？一般来说，智能与意识、心智相关，意识指的是现象意识或主观经验（感受性），心智是指有意识智能，感受性是感觉能力的综合。如果感觉（feeling）是纯粹私人的，那么它就不能被客观地表征。这意味着，感觉与其表征是分离的。从科学表征看，一种现象，无论是主观的还是客观的，只要被认识，它就必须能被表征。因此，如何从第三人称视角表征感觉是一个难题。事实上，人工智能必须从第三人称视角（客观视角）通过表征研究通用智能。毕竟，表征作为语言处理能力是一个系统是否有智能的重要标志！[39]

这种从主观感觉对通用智能进行的哲学分析表明：如果感觉是一种偶发现象，就可以直接忽略掉，因为感受是主观的、私人的；而科学研究的是客观现象（尽量排除主观因素），如果不能测量这种感觉，就不能科学地研究它。这意味着，人工智能体不可能有第一人称意义上的感觉，即使有，我们也不知道，这涉及心灵哲学的他心问题，这里不做讨论。假设感觉是可以客观地进行研究的（第三人称视角），它对智能体也起着不可或缺的作用。比如有人试图为机器拥有这种感觉给出一个可能的解决方案，即把感觉定义为“改变输入表征的趋势”，[40]并认为一个智能体的表现只要符合这个定义，就可为该智能体有感觉提供正面证据。如果这种定义是正确的，那么感觉就变得可测量了。然而，对于模拟的感觉，是否有可能找到一个计算模型来表征先天的感觉，仍然是个迷题。或者说，如果一个行为体有智能，但没有感受性，那就是哲学上的“僵尸”或医学上的“植物人”了，智能体很可能就是这种能对话但无自我意识的“僵尸”或“植物人”。

文化人工智能的“图灵测试”

通过上述方法或路径建构通用智能，也就在某种程度上创造了CAI。这意味着将人工智能发展到某种程度上与人类智能相当的机器智能，或者如库兹韦尔所说，机器智能具有人类的全部智力——各种感觉模式和认知的统一。我们如何知道机器获得了人类的智能呢？通常的做法就是进行“图灵测试”或一系列类似的测试（第三人称方法），诸如洛夫拉斯测试[41]、心理测试[42]、皮亚杰-麦格威的屋测试[43]、戈尔采尔测试[44]以及就业测试[45]。

一项研究通过分析科学、艺术、工程和商业领域的知识和认知提出新的测试方法[46]——人工智能的类人认知能力按其复杂程度递增的测试：（1）解释，即给出一个定义明确的科学理论和一个经验现象，对该现象作出解释并计算其数量特征；（2）问题设置，即给出一个定义明确的科学理论和世界的一般知识和认知任务；（3）反驳，即给出一组经验现象的相互竞争的模型／解释；（4）新现象的预测，即给出一个定义明确的科学理论，预测一个以前未知的现象；（5）业务创建，如一个成功的初创企业；（6）理论创造，如产生人工认知理论。

可以看出，这些测试通用智能的方法比“图灵测试”更难，要求更高。这是因为“日常知识是基于以前对重复发生的现象的观察，并允许作出预测，这些预测对成功的实践活动非常重要，尽管它们具有概率性预期的性质。但科学可以做一些完全不同的事情：可以预测我们从未观察过的现象。这些是专门的理论预测。”[47]当然，CAI也可能由整合已有的不同认知架构来实现，比如作为人工智能统一架构的欧米茄（Omega）[48]，该架构体现了通用智能的几个关键原则，包括表征的多样性、数据类型的多样性、集成记忆、模块化和高阶认知。其中有一个称为“人工智能内核”的基本算法可用于问题解决、基本认知功能和一个更大的模块化架构。事实上，这是一种开放的、模块化的、自我提升的人工智能统一架构，是对阿尔法（Alpha）架构[49]的改进版本。

一般来说，人工智能体的认知能力表现在：它必须确定知识“是什么、何时、如何和为什么”，应该被选择并转移到另一个任务上。这种转移能力既是一种适应性表征能力，也是一种自主经验能力。人类有五种感官和本体感觉，但人工制品可以有潜在的无限数量的传感器，每个传感器都可实现不同类型的体验。这意味着，智能机器人也可以有执行器，也可以有许多个特定体验的范式（对应于人类的不同感觉方式）。AGI的出现表明，一个普遍接受的通用智能应该至少包括如下领域中的一个，特别是第一个[50]：

（1）基于图像、视频和现场摄像机的视觉体验的通用智能（VIS-AGI）。

（2）基于传感器运动体验的通用智能（SEMO-AGI），即同质或异质机器人，部分由人类控制操作。

（3）基于电子文本（数字化书籍、网页、源代码）和1／0接口的符号体验的通用智能（SYM-AGI）。

VIS-AGI将发展出直观物理学，作出可能涉及人类行为的预测，并检测异常情况；SEMO-AGI将为自主机器人或汽车开发有目的的行为和导航，并从对这些机器人或汽车的人类操作记录中学习；SYM-AGI将通过语言（任何语言）和其他游戏与人类成功互动，通过数学发展自然科学，并通过机器编程进行自我提升。三种通用智能的整合可实现一种基于同时嵌入物理世界和由符号构成的虚拟世界的链接经验的通用智能（LINK-AGI）。[51]

然而问题是，连接感觉和符号经验的通用智能体不能直接创建，而是要对另一个通用智能体进行扩展才能形成，比如一种可能的设计是实现基于符号经验的通用智能，即符号人工智能。因此，可以预期，符号学包括生物符号学一定会在AGI和CAI的发展上发挥作用，如基于逻辑概率的由生物激发的认知架构，也必须通过“图灵测试”。

结语

人工智能要实现通用、人性化和广泛应用，CAI的设想无疑是一种可能出路，即将意识、情感、伦理等高级认知因素嵌入人工智能系统，也就是建构具有人性的CAI，但实现这一设想难度极大。换句话说，如果能够将意识、情感这些非理性成分嵌入人工智能系统，也就能够将文化因素嵌入其中，其难度是等同的。如何实现这一设想目标是新一代人工智能要着力研究的问题，这里只是从哲学上提供了一些可能的应对之策，诸如智能体的范畴论和语境论整合、感性与理性的整合、通过机制进行功能建模，通过结构功能实现适应性表征，以及运用语境觉知应对意外或新奇事件。可以说，一个通用智能系统应该能够应对这些问题，能够通过“图灵测试”，不能通过“图灵测试”的人工智能一定不是通用的，也不会具有文化属性。

（本文系国家社会科学基金重大项目“人工认知对自然认知挑战的哲学研究”的阶段性成果，项目编号：21&ZD061）

注释

[1]魏屹东：《论人工认知实现的方法论策略》，《哲学研究》，2024年第3期。

[2]两种类型人工智能的不同是：一般来说，统计人工智能擅长通过模式识别预测和分类，而符号人工智能擅长推理和验证。各自优势的结合或混合应该是有益的，在一定程度上取得了成功，如混合认知范式。鉴于现实世界的不确定性和偶然性，以及现实生活中的有限理性和信息的不完全性，统计人工智能是必要的。但符号人工智能对于无懈可击的推理和验证，以及对无懈可击的知识或真理的追问也是必要的。

[3]Y. Maruyama, Categorical Artificial Intelligence: The Integration of Symbolic and Statistical AI for Verifiable, Ethical, and Trustworthy AI, Cham: Springer, 2022, pp. 127-138.

[4]P. Norvig, On Chomsky and the Two Cultures of Statistical Learning, Wiesbaden: Springer, 2017, pp. 61-83.

[5]B. Fruchart and B. L. Blanc, Cognitive Machinery and Behaviours, Cham: Springer, 2020, pp. 121-130.

[6]B. Goertzel, "Artificial General Intelligence: Concept, State of the Art, and Future Prospects," Journal of Artificial General Intelligence, 2014, 5(1).

[7]L. P. Kaelbling et al., "Planning and Acting in Partially Observable Stochastic Domains," Artificial Intelligence, 1998, pp. 99-134.

[8]W. Hafez, Information Digital Twin—Enabling Agents to Anticipate Changes in Their Tasks, Cham: Springer, 2020, pp. 183-192.

[9]魏屹东：《人工智能的适应性知识表征与推理》，《上海师范大学学报（哲学社会科学版）》，2019年第1期。

[10]C. McLear, Kant: Philosophy of Mind, Internet Encyclopedia of Philosophy, https://philpapers.org/archive/AUTKPO.pdf.

[11]Y. Maruyama, The Conditions of Artificial General Intelligence, Cham: Springer, 2020, pp. 242-251.

[12]感性是提供感觉表征的能力，它产生表征的基础是受到不同于主体的实体或主体本身的影响；知性自发地产生概念表征；理性是一种自发的能力，主体通过这种能力可以产生特殊的概念。

[13]D. Dieks, Understanding in Physics: Bottom-up Versus Top-Down, Scientific Understanding: Philosophical Perspectives, 2009, pp. 230-248.

[14]IBM's Intelligent Agent Strategy White Paper, Intelligent Agents, Springer, 1996, http://activist.gpl.ibm.com:81/WhitePaper/ptc2.htm.

[15]H. L. Dreyfus, "Why Heideggerian AI Failed and How Fixing It Would Require Making It More Heideggerian," Artificial Intelligence, 2007, pp. 1137-1160.

[16]A. E. Williams, A Model for Artificial General Intelligence, Cham: Springer, 2020, pp. 357-369.

[17]M. S. P. Miller, Piagetian Autonomous Modeller, In Proceedings of the AISB 2011 Symposium on Computational Models of Cognitive Development, 2011, pp. 32-39; M. S. P. Miller, Coding Artificial Minds, Self-published, Los Angeles, CA USA, 2021.

[18]M. S. P. Miller, The Piagetian Modeler, Cham: Springer, 2022, pp. 151-162.

[19]钟义信：《机制主义人工智能理论——一种通用的人工智能理论》，《智能系统学报》，2018年第1期。

[20]E. Ozkural, Measures of Intelligence, Perception and Intelligent Agents, Springer, 2022, pp. 174-183.

[21]A. Raheman et al., Adaptive Multi-Strategy Market Making Agent for Volatile Markets, Springer, 2022, pp. 204-209.

[22]Lian, Ruitin, Ke et al., Syntax-Semantic Mapping for General Intelligence: Language Comprehension as Hypergraph Homomorphism, Language Generation as Constraint Satisfaction, Heidelberg: Springer, 2012, pp. 158-167.

[23]V. Ramesh and A. Kolonin, "Unsupervised Context-Driven Question Answering Based on Link Grammar," Artificial General Intelligence, 2022, pp. 210-220.

[24]O. Baskov et al., "Programmatic Link Grammar Induction for Unsupervised Language Learning," International Conference on Artificial General Intelligence, 2019, pp. 111-120.

[25]T. U. F. Program, "Homotopy Type Theory: Univalent Foundations of Mathematics," Eprint arXiv, 2013, 38(9).

[26]A. Potapov and V. Bogdanov, "Univalent Foundations of AGI Are (Not) All You Need," International Conference on Artificial General Intelligence, Cham: Springer, 2022, pp. 184-195.

[27]S. Raghavachary, Intelligence-Consider This and Respond, Cham: Springer, 2021, pp. 400-409.

[28]S. Raghavachary, Biological Intelligence Considered in Terms of Physical Structures and Phenomena, Cham: Springer, 2022, pp. 196-203.

[29]M. Huh et al., "The Platonic Representation Hypothesis," 13 May 2024, https://arxiv.org/abs/2405.07987.

[30]魏屹东：《适应性表征是人工智能发展的关键》，《人民论坛·学术前沿》，2019年第21期。

[31]魏屹东：《适应性表征：架构自然认知与人工认知的统一范畴》，《哲学研究》，2019年第9期。

[32]A. V. Samsonovich, A Virtual Actor Behavior Model Based on Emotional Biologically Inspired Cognitive Architecture, Cham: Springer, 2022, pp. 221-227.

[33]K. Thorisson, "Seed-Programmed Autonomous General Learning," Proceedings of Machine Learning Research, 2020, pp. 32-70.

[34]A. Sheikhlar et al., Causal Generalization in Autonomous Learning Controllers, 2022, pp. 228-238.

[35]C. Strannegrd et al., The Ecosystem Path to AGI, Cham: Springer, 2022, pp. 269-278.

[36]R. Nieuwenhuys, "The Insular Cortex: A Review," Progress in Brain Research, 2012, pp. 123-163.

[37]E. O. Neftci and B. B. Averbeck, "Reinforcement Learning in Artificial and Biological Systems," Nature Machine Intelligence, 2019, 1(3).

[38]A. J. Lotka, Elements of Physical Biology, Williams & Wilkins, 1925.

[39]关于表征，从社会与情境看，就是社会表征，涉及知识在社会中的形成问题，其维度包括：谁（who）、如何（how）、为何（why）、是什么（what）和为了什么（what for）这些方面，构成了谁表征，如何表征，为什么表征，表征什么，为了什么表征（目的）这五个问题，这些问题形成了各种社会表征理论。

[40]B. Xu et al., The Gap Between Intelligence and Mind, Cham: Springer, 2022, pp. 292-305.

[41]由H设计的人工智能体A，在以下情况下通过了洛夫拉斯测试，且仅在以下情况下通过：A输出O，O不是硬件错误之结果，而是A可重复过程的结果；H无法解释A是如何产生O的。See S. Bringsjord et al., Creativity, the Turing Test, and the (Better) Lovelace Test, Springer Netherlands, 2000; J. H. Moor, The Turing Test: The Elusive Standard of Artificial Intelligence, Boston: Kluwer Academic Publishers, 2003.

[42]心理测量学人工智能是一个致力于建立信息处理实体的领域，这些实体至少能够在所有既定的、经过验证的智力和心理能力测试中表现良好，这一类测试不仅包括相当严格的智商测试，还包括艺术和文学创造力、机械能力等方面的测试。See S. Bringsjord and B. Schimanski, What Is Artificial Intelligence? Psychometric AI as an Answer, San Francisco: Morgan Kaufmann, 2003, pp. 887-893.

[43]就是说，当且仅当一个信息处理的人工制品能够在由这个房间里的成分构建的任何测试中取得成功时，它才能被可信地归类为通用智能。关于测试的内容，没有提前通知有关人工制品的工程师，只有房间里的成分被提前共享。这些成分大致相当于对在神经生物学学科中正常的学生进行测试，判断他们在其认知发展理论中处于什么阶段的公平游戏。See S. Bringsjord and J. Licato, Psychometric Artificial General Intelligence: The Piaget-MacGuyver Room, Paris: Atlantis Press, 2012.

[44]这是在通用人工智能界流传的几种潜在的通用智能测试方法，包括沃兹尼亚克咖啡测试、故事理解测试、学前班阅读测试等。See B. Goertzel et al., The Architecture of Human-Like General Intelligence, Paris: Atlantis Press, 2012.

[45]是指表现出真正人类水平的智能的机器应该能够做许多人类能够做的事情，这些活动中包括人们被雇用的任务或工作。为了通过就业测试，人工智能程序必须能够完成通常由人类完成的工作。然后，人类水平的人工智能所取得的进展可通过这些工作中可被机器所接受的部分来衡量。See N. J. Nilsson, "Human-Level Artificial Intelligence? Be Serious!" AI Mag, 2005, 26(4).

[46][47]N. Mikhaylovskiy, "How Do You Test the Strength of AI?" International Conference on Artificial General Intelligence, Springer, 2020, pp. 257-266.

[48]E. Ozkural, Omega: An Architecture for AI Unification, Springer, 2020, pp. 267-278.

[49]R. J. Solomonoff, "Progress in Incremental Machine Learning," Le Journal De Physique Colloques, 2003.

[50]V. Targon, Experience-Specifific AGI Paradigms, Springer, 2020, pp. 322-326.

[51]Silvia et al., "A Short Review of Symbol Grounding in Robotic and Intelligent Systems," KI-Künstliche Intelligenz, 2013, 27(2), pp. 129-136.

责编∕杨柳美编∕梁丽琛

Possible Paths to Constructing Cultural Artificial Intelligence

Wei Yidong

Abstract: The development of large language models of Generative Artificial Intelligence (GAI) suggests that a new generation of AI is approaching the goal of Artificial General Intelligence (AGI). In order to realize generality, humanization and wide application of general artificial intelligence, it is necessary to have the attributes of human cultural characteristics. Embedding high-level cognitive factors such as consciousness, emotion and ethics into artificial intelligence systems, that is, constructing cultural artificial intelligence with humanity, is undoubtedly a possible way out. How can AI become embodied AI such as cultural AI is a major challenge. From the perspective of philosophical methodology, the possible paths to construct cultural AI include the integration of category theory and contextual theory, the integration of sensibility and rationality, functional modeling through mechanisms, adaptive representation through structural functions, and response to unexpected situations through contextual awareness, and finally passing the rigorous "Turing test". If these are done, it is expected to embed human-specific cultural characteristics in the AI system, making it a cultural AI with humanity.

Keywords: big language model, artificial general intelligence, embodied artificial intelligence, cultural artificial intelligence, adaptive representation