【摘要】人工智能浪潮已经席卷全球,不仅改变了人类的生活方式和传播行为,也改变了人类观察和认识世界的方式。人工智能与大数据驱动的计算范式延伸至社会科学领域,受传统传播学定量研究范式、数据科学和网络科学的影响和启发,计算传播学方兴未艾,已经成为计算社会科学的重要分支学科之一。从数据挖掘到机器学习,再到深度学习,人工智能算法和技术极大提高了计算方法处理大数据的精度和效率。目前,与无监督和监督学习方法相结合,自动化内容分析、情感分析和社会网络分析等方法为计算传播学研究提供了数据处理、整合和分析的研究策略和经验。在未来,通过开发和建立可扩展的自动化内容分析框架和系统,引入更丰富的深度学习策略,以及推动跨学科研究的方法创新等,将有助于人工智能与计算传播学在更广泛的交叉领域实现深度融合。
【关键词】计算传播学 人工智能 机器学习 深度学习
【中图分类号】G20 【文献标识码】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.003
当前,越来越多的社会科学研究者在大数据的驱动下,使用统计学、数学模型和机器学习等方法,探索社会科学知识发现和数据挖掘的新方向,开启了规模更广、参与度更深的社会科学新纪元。2009年,拉泽尔等[1]提出了“计算社会科学”(Computational Social Science)的概念,他们认为以“计算”作为研究的基础手段的社会科学业已形成,展现出人类在前所未有的广度、深度和规模上收集和分析数据的能力。人文社会科学的学者开始关注大数据、人工智能等信息技术对社会经济发展以及科学研究等方面带来的影响和价值。尤其是社会科学研究者效法自然科学,以计算机作为研究社会复杂性的基本工具,创新地运用多种计算方法(computational methods)研究社会科学问题,并影响了诸如社会学、语言学、传播学等学科研究范式的转型。在传播学领域,这一转型中的研究范式被称为:计算传播学(Computational Communication Research)。
人工智能与大数据之间的关系非常紧密,人工智能的深度学习进化依赖于大数据平台和技术基础,同时后者的改进也需要人工智能算法的支撑。计算传播学何以可能?可以说,它的出现正是得益于大数据和人工智能的协同发展,主要体现在三个方面的因素:第一,海量的数字化数据,从社交媒体信息、其他“数字痕迹”(digital trace)到在线档案、数字化的报纸以及其他历史档案;第二,用于分析数据的工具的进步,包括网络分析、自动化文本分析、主题模型、词嵌入等统计学和机器学习方法;第三,强大而廉价的处理能力以及计算工具的易用性,包括科研目的和商业用途的云计算、共享和编程平台的涌现和发展。[2]可见,互联网、移动互联网和物联网为社会科学提供了可资研究的大规模数据,其中以半结构或非结构数据为主(包括文本、语音、视觉图像等),而人工智能成为了这类数据处理的关键性技术,[3]对计算传播学的发展起到至关重要的支撑和催化作用。
本文将从计算传播学的概念、起源出发,探寻计算传播学与传播研究定量传统、数据科学、网络科学的学科渊源;并在简述人工智能热潮下机器学习、深度学习概况的基础上,对人工智能在计算传播学研究方法(包括内容分析、情感分析和社会网络分析)中的应用现状和前景进行综述和探讨;最后,讨论和展望推动人工智能与计算传播学深度融合的发展方向和未来趋势。
计算传播学的概念及渊源
计算传播学的概念。作为计算社会科学的重要分支,计算传播学藉由海量的互联网数据和先进的计算技术对人类传播现象和行为进行跨学科研究。所谓“计算传播学”,可以被理解为是一种正在兴起的数据驱动的研究取向,是基于人类传播行为的数字足迹,采用文本挖掘、情感分析、社会网络分析等带有显著计算特征的数据分析方法进行研究,来探究人类传播行为的表现模式和内在逻辑;数据集、可计算、可建模成为计算传播学有别于传统传播学的显著特征。因此,计算传播学带有浓厚的方法和工具的属性特征,所以计算传播学也被研究者(在之前的一段时间中,乃至于有可能在以后的一段时间中)普遍认为是研究方法的转型,而非传播学范式的转型。然而随着整个人类社会都在迈向数字化,(新生代)人类的传播行为大多依赖于数字化平台来实现,即便是在现实空间的传播与交流行为也因为各种技术的突破可以被数字化记录和存储,于是,传播学所探究的人类传播行为自身显现出显著的数字式倾向。传播学关注的对象在数字化,其研究范式不可避免也需要有数字化的转型。因此,我们认为计算传播学并不仅仅是一系列研究方法和工具的集合,它更有可能是整个传播学在数字化时代的学科范式的转型。
借鉴沙哈等人[4]的标准,计算传播学的研究范式通常包括:(1)大而复杂的数据集;(2)由数字痕迹和其他“自然发生”的数据组成;(3)需要算法对此进行分析;(4)允许运用和检验传播理论来研究人类传播行为。[5]换言之,一种方法是在计算机上执行的,并不意味着它就是一种“计算方法”,因为传播学者在过去半个多世纪里一直使用计算机来辅助他们进行研究;另一方面,计算范式也不是由日益复杂的算法造就的“神话”,更不是社会科学和计算机科学的机械式拼凑,[6]而是跨学科乃至“超学科”[7]的知识体系和方法论的深度融合。
计算传播学的学科渊源。从研究范式来看,计算传播学起源至少受到三个学科发展的重要影响,即(实证)传播学、数据科学以及网络科学。传播领域根源于社会科学和人文学科,传统实证范式的传播学研究主要以心理学实验、社会学调查、统计学、计量经济学、社会网络分析等方法为主。相比于其他社会科学,传播学对方法的重视程度历来不足,缺乏研究传播过程的方法和采用其他学科领域的方法,[8]长期以来一直被认为是一个理解传播学的特殊挑战。传播作为一门学科正处于数据革命的潮头之上,因为大多数公开的在线行为留下的数字足迹都源自某种形式的传播,所以在线用户行为的观察性研究成为计算传播学的重要领域。[9]
从历史渊源来说,用户行为挖掘是传播学电视收视率数据挖掘与分析在网络时代的延续和发展,[10]用户分析的基本概念和测量指标由收视率调查发展而来。[11]虽然收视率调查是针对有限样本的随机抽样研究,但回溯至20世纪30年代,通过日记卡或测量仪等多种数据采集手段获得的数据规模已然十分庞大,可以说传播学是较早使用大数据开展调查分析的社会科学之一。进入大数据时代,人们通过互联网及其相关应用的“中介”(mediated)传播行为成为社会科学研究的重心,在线的人际和社会交流直接产生的海量数字记录正在对许多传统研究方法带来巨大的挑战。
受数据科学的影响,传播学正在经历一个从定性研究到定量研究,再到计算研究,从简单分析到复杂处理,从属性数据到关系数据的研究范式和方法论思考的过程。[12]传播研究的定量范式主要基于统计学,而真正意义上的现代统计学是从处理小数据、不完美的实验等这类现实问题发展起来的。[13]格雷(Jim Gray)早在20世纪90年代中期就提出了科学研究的“第四范式”(the fourth paradigm),即数据密集型科学,预示着科学研究由传统的假设驱动向数据驱动的探索性方法的转变,其中一个重要的特征就是“从用少量数据集的辅助研究,转向对数量不断扩大的各种高信息含量数据进行研究”,这将促使“大部分人文社会科学走向具有自然科学的特征”。[14]
目前,传统分析工具对大数据很难发挥作用,也就是说传统的数据库和统计分析技术很难在有限时间范围内完成数据存储、预处理、计算和管理等一系列过程。为了有效地处理这类数据,数据科学(Data Science)的新范式应运而生,从而构成了计算传播研究的数据和方法基础。不仅是数量级上的差异,计算传播学所处理的大数据与传统小数据相比也已发生了质的变化,前者以半/非结构型数据为主,处理难度和挑战远超于后者(结构型数据为主)。由于数据的规模之大、结构之复杂,计算传播研究需要借助人工智能和并行处理等现代计算技术才能实现。
计算传播学的另一个重要学科来源是网络科学(Network Science)——“专门研究复杂网络系统的定性和定量规律的一门崭新的交叉科学”。[15]网络科学的出现开启了21世纪社会科学的新的研究方向,基于互联网传播产生的数据和互动性将会变革我们对于人类集体行为的认识,[16]利用社会计算的方法深入分析每一个个体的关系和连接,有可能预知社会发展的趋势。[17]网络科学以复杂网络为研究对象,关注不同拓扑结构特征、功能及其相互关系,进而为在线传播网络中的各种动力学行为和信息流过程的计算、预测和控制提供了原理和方法基础。
毫无疑问,复杂性和非线性是物质、生命和人类社会进化中的显著特征。为此,传统的定量研究采用非线性问题线性化的方法,在对社会结构进行划分的基础上,用函数关系组成的反馈回路、流等来模拟社会结果,实现社会作用机理的宏观模拟。[18]与传统路径不同,计算传播研究强调探究人类传播动因和机制并不取决于个体的想法或意图,而是着眼于从个体所嵌入的复杂的社会结构中去发现传播规律。因此,计算传播学研究本质上依托于对复杂网络的挖掘和分析,旨在探索传统定量研究所忽视的及受技术方法制约无法完成的大量网络特征及相关性,以解决回归或线性方案无法应对的网络依赖性和复杂性问题。
人工智能、机器学习和深度学习
人工智能。人工智能(Artificial Intelligence)是“智能主体”(intelligent agents)如何最优化决策过程的统称,通过训练计算机模拟人类以完成自主学习、判断、决策等智能行为,主要涵盖视觉处理、语音识别、自然语言处理和智能机器人等应用领域。
人工智能同时也是计算机科学的一个分支。其作为一门独立的新型学科,是以1956年麦肯锡(McCarthy)在美国达特茅斯(Dartmouth)研讨会上首次提出“人工智能”概念为标志的。近年来,国际人工智能相关的研究和应用领域取得突破性进展,在国家发展战略、科学研发、应用创新等方面形成“井喷式”发展的态势,同时人工智能的发展也为相关学科带来了新机遇。[19]人工智能领域的发展具有跨学科的特性,总体上以计算机科学(Computer Science)、工程电气类(Engineering,Electrical & Electronic)、医学及成像类、数学类等理工学科为核心学科,由于对语音识别和自然语言处理的关注,其中还包括语言学(Linguistics),对于人工智能领域的跨学科发展具有关键性的作用;以神经科学(Neurosciences)、心理学(Psychology)为代表的潜在学科也凭借其迅猛的增长率而在其中扮演着重要的角色。[20]
人工智能一般被分为弱人工智能(Artificial Narrow Intelligence, ANI)、强人工智能(Artificial General Intelligence, AGI)、超人工智能(Artificial Superintelligence,ASI)三种分类和发展阶段。[21]我们今天讨论的人工智能基本上还处于弱人工智能阶段,例如,引发广泛关注的谷歌AlphaGo和AlphaGoZero就属于ANI的范畴。目前的人工智能还难以在认识、学习和决策等综合智能上与人类比肩,甚至超越人类智能。尤其在社会科学研究领域,弱人工智能主要是以完成特定的任务而存在的,例如语音识别、图像识别和语言翻译等。在实现方法上,弱人工智能采取的是基于统计和概率的方法,在特定的算法规则下基于大规模优质或混杂的语料库,从数据中归纳出模型以发现普遍规律或最优方案。[22]
机器学习。机器学习(machine learning)是人工智能的重要领域和主要发展方向之一。机器学习的核心是学习,也就是让计算机通过识别和利用现有数据,模拟人的学习过程以获得对研究者有意义的知识。互联网上的传播活动产生大量的图像与文本数据——结构化或半结构化数据,因此必须根据先验的或已有知识对这类数据进行特征抽取,并转换为结构化数据以建立模型,而机器学习正是解决这类问题的重要手段。[23]
就目前的计算传播学研究实践而言,机器学习更多被运用于自动化的文本分析,[24]例如用于关键词提取和共现分析的自然语言处理技术,[25]有监督的文本分类方法[26]、情感分析[27]以及语义网络等。虽然自动化的文本分析技术极大地简化了研究者繁琐的文本编码,并且能够有效减少因主观偏见带来的误差,但现有的文本分析技术还有很大的局限性,尤其大数据(包括各种媒体数据、时序数据)具有属性稀疏、超高维、高噪声、数据漂移、关系复杂等特点,传统的机器学习算法也已难以有效处理和分析大数据,必须借助分布式处理和并行计算或改进数据挖掘算法。[28]
深度学习。深度学习(deep learning)源于人工神经网络(artificial neural network)的研究,是新兴的多层神经网络结构的学习算法。在诸多机器学习理论中,神经网络学习是借鉴人脑结构及功能的一种抽象数学模型,通过由大量神经元节点连接而组成的网络,模拟大脑信息处理、知识表征和学习的过程,因此也被称为“连接主义”。从20世纪80年代末期以来,机器学习的发展大致经历了浅层学习(shallow learning)和深度学习两个阶段,[29]前者以反向传播算法(back propagation, BP)为代表掀起了基于统计学方法的机器学习浪潮,随后不同的浅层机器学习模型相继出现,比如传统隐马尔可夫模型(HMM)、条件随机场(CRFs)、支持向量机(SVM)在模型结构有一层隐含层(hidden layer)——单个将输入信号转换到特定问题空间特征的结构,而最大熵方法(比如,逻辑回归,LR)则没有隐含层。以2006年为界,自Hinton等人提出了深度置信网络(DBN)和多层自动编码器等解决深层结构优化问题的算法,成为之后深度学习算法的主要框架,对机器学习领域产生了极其重要的影响。
其中,卷积神经网络(CNNs)是第一个真正训练成功的多次结构算法,[30]其网络结构受生物视觉模型的启发,通过用已知模式训练卷积网络,使得卷积网络获得输入与输出之间的非线性映射关系,而不追求它们之间精确的数学关系。目前,CNNs在图像处理和视觉目标识别方面已经获得了较高的精确度[31]。在传播领域,计算机除了需要理解文本、语言所传递的人类语义信息的任务之外,非语言交流和图像在人际沟通中无所不在也是人工智能亟待克服的问题,因为对图形数据的学习有助于增进对人类传播行为的理解,比如,对政治运动的理解以及网络抗议和图片的动员作用。[32]
人工智能在计算传播研究中的应用
不同于专门学科对人工智能技术和应用的开发和推进研究,国内人文社会科学对人工智能研究的着力点主要侧重于探讨人工智能的逻辑和基础认识、挖掘人工智能的应用空间、预判人工智能的社会性影响和后果等方面。[33]近年来,随着计算科学的出现,机器学习、深度神经网络等人工智能的算法和技术不断扩散、渗透进入社会科学领域,在传播研究中已经出现和积累了不少以自动内容分析、情感分析和网络分析等为计算方法的研究经验。
自动化内容分析。在传播学研究中,内容分析(content analysis)通过强调信息处理和意义建构而成为核心的研究方法之一,[34]它是一种“从文本(或其他有意义的事物)中对语义进可复现的、有效的推理研究技术”。[35]但是传统的内容分析依靠大量的时间、人力和资金才能保证研究的可靠性,因此早期的传播学研究就已经引入计算机辅助的自动化内容分析技术(Automated Content Analysis,ACA)。近年来,有监督的机器学习(Supervised Machine Learning, SML)和语义网络分析(Semantic Network Analysis, SNA)为自动化内容分析提供了更加有效的算法实现和技术支持。机器学习将正确标注的数据作为输入以训练算法模型,训练的过程要求机器分类器(classifier)与人类编码者在样本数据集的编码结果上达到高度一致,尽管计算机并不具备语言和语义理解的能力。通过对人工编码材料的学习,有监督的分类方法能够有效弥合传统内容分析和自动内容分析之间的鸿沟。例如,研究者通过一项实验性的研究中评估了有监督机器学习对大量语料数据进行自动化分类的潜力,通过对德国在线新闻的既定主题类别进行分类测试,发现自动化分类的可靠程度一般比人类编码效度低15%,尤其当分类被明确定义和有效标注时,机器学习对于某些类别来说通常是稳健和可靠的。[36]
另外,有研究者(Pilny, McAninch, SloneA, etal.)[37]以“关系不确定性”(relational uncertainty)研究为案例,提出了一套结合SML算法的ACA方法在传播学研究中的简易操作程序和效度检验方法,主要分为以下三个步骤。步骤1:从传统内容分析程序开始,包括确定分析单位(如论坛发帖)、编码方案(如关系确定与否)和抽样方法(如分层抽样)等。步骤2:在计算评价者间的一致性信度的基础上确立编码的基准,然后将文本转为供计算机处理的数据,包括词袋(bag of word)、字典(dictionary)、主体模型(topic modelling)等自然语言处理方法,并选择最合适的SML算法类型,常用的学习方法有支持向量机(SVM)、随机森林(Random Forest, RF)和朴素贝叶斯(Naïve Bayes, NB)等算法;接着进行特征选择(feature selection),包括过滤法(filter)、封装法(wrapper)、嵌入法(embedded)等方法。最后,将上述模型算法用于文档编码与人工编码(hold-out)进行一致性检验,并与独立的人工编码标准做比较以评估模型的精度、召回率和F1值等指标。步骤3:在独立测试集的文本上测试算法的信度和效度,目的在于防止训练集的内在联系性而导致模型的过拟合(over fitting)现象,并通过补充调查建立机器分类方法的相关效度,主要包括聚合效度和区分效度两个维度效度检验。
除了有监督的机器学习,无监督(unsupervised)自动化内容分析方法也被广泛运用于诸如风险沟通研究中。[38]无监督方法可以归纳地识别文本中的词簇,其目的不在于搜索预定义的类别,而是为研究人员提供关于文本中可以找到哪些类别的信息,通过共现的关键词可以确定意义的结构和更抽象的文本结构,比如新闻或议题框架(frame)的识别。例如,在荷兰公众对机场风险讨论的研究[39]和组织风险研究[40]中均使用了非监督学习方法。
情感分析/意见挖掘。情感分析(Sentiment Analysis)或意见挖掘(Opinion Mining)通常被定义为寻找主体对特定实体的观点、态度或情绪的任务。情感分析是计算机科学中最热门的研究领域之一,已经有超过7000篇关于这个主题的文章。[41]在新闻传播领域,如政治传播、公共传播和品牌传播相关的研究中,主要用于判断相关文本所包含的态度是积极、正面的还是消极、负面的。[42]
文本的情感分析主要分为有监督和无监督学习两类方法:(1)有监督方法将文档分类到有限的情感类别中,如正向、负向、中性等,或者表示为一些离散的数值范围;给定训练数据后,系统将利用支持向量机、朴素贝叶斯、逻辑回归、KNN等常用分类算法学习进行情感分类;(2)无监督方法则基于确定文档中特定短语的语义指向(Semantic Orientation, SO),如果这些短语的平均SO超过某个预定的阈值,则文档将被分类为正,否则将被视为负,短语的选择通常依据词类模式或情感词典。由于自然语言的复杂特点,已有的机器学习方法一般很难取得较好的文本分类效果。然而,在特定的领域,使用机器学习算法根据文本的情感取向对文本进行分类的效果很好。
在政治传播领域,有研究者[43]将有监督的情感分析技术应用于检测推文对美国总统候选人的态度,采用基于词典的(lexicon-based)方法——词典通常来源于被分析的文本之外,经由人工所注释和验证——收集给定用户关于候选人的所有推文,测量并确定该用户对特定候选人的平均情绪得分;他们在Senti Strength情感分析软件的基础上,结合机器学习和t检验的方法检查了词典在分析语料上的有效性并补充了情感词汇,经过抽样测试,机器编码得分与人工编码的一致性达到82.8%。在中文语境下,基于SVM的监督学习法还被有效地运用于对微博文本的态度分类任务中,以研究关于中国“改革开放”的网络论争的态度倾向和变化,并使用查准率(0.80)、查全率(0.80)、F1值(0.79)等指标对模型进行评估。[44]
也有研究者(Ortigosa, Martín, Carro)[45]基于字典和机器学习算法,提出了一种新的情绪分析混合方法,开发Facebook的应用程序以检索面向学生的情感极性(积极、中性和消极)状况和情绪变化,通过将基于词汇的预处理技术与SVM相结合得到的分类精度最高可达到83.27%,证明了从用户在Facebook上所写的信息中提取其准确的情感信息是可行的。
相比于有监督方法,无监督学习方法依赖于语料所涉及的不同领域特征,对基准情感词的准确度要求较高,广泛应用的难度和挑战性也较大。然而,互联网应用场景和社交媒体容易产生并积累大量未标记的数据,而且获得情绪标签的成本相对较高,因此无监督方法有其施展拳脚的现实需求。例如,研究者Turney[46]在对汽车、银行、电影及旅游等评论的情感分析中运用了无监督方法。他们将评论分成推荐和不推荐两类,评论的分类是由评论短语中的形容词或副词的平均语义取向来进行预测,使用互信息算法(PMI)分别计算文本短语与基本正向/负向情感词的关联度,以正向关联度减去负向关联度的差值来确定该文本的情感极性,如果其短语的平均语义取向为正,则将其分类为推荐。该算法在410条不同的评论分类中的准确率为74%,介于汽车评论的84%和电影评论的66%之间。除此之外,无监督的学习方法还被探索性地应用于解决社交媒体的非正式文本交流[47]、表情符号[48]以及中文评论[49]等情感分类问题。
社会网络分析。自20世纪70年代以来,传播学研究者利用社会网络分析来理解大众传播、健康传播、组织传播和人际传播。社交网络由一组节点和节点之间的一个或多个关系组成,节点是特定的实体,包括个人、媒体、组织、群体、机构等,或者是词语、事件、议题等抽象概念。随着互联网和社交媒体的发展,出现了很多社会网络数据,包括电邮交换网络、博客网络、在线社交网络、在线文献引文库等。这些关系型数据的规模较大,且结构复杂多变,已经成为影响社会个体行为改变和传播关系形成的结构性变量和因素。社会网络又属于复杂网络(Complex Network)的一种,后者以网络的几何性质、结构稳定性、形成机制、网络演化的统计规律和动力学机制等为主要研究问题,成为推动网络科学和复杂性科学的发展的前沿领域。在计算机科学中,社会网络分析是一个非常新的研究领域,可以看成网络知识发现或网络挖掘的一个分支,涉及数据挖掘、机器学习、信息抽取与检索等不同领域。
传统机器学习的处理的数据往往由多个属性值的向量来表示,而且属性之间具有独立性;而社会网络数据中的节点并非统计上独立的采样点,而是相互之间存在依赖性。因此,使用机器学习技术,需要考虑数据实例之间的关系,由此产生了一个新兴的研究方向——链接挖掘[50]。常见的链路挖掘任务包括对象排序(object ranking)、群体发现(group detection)、集群分类(collective classification)、链路预测(link prediction)和子图发掘(subgraph discovery)等。
以链路预测为例,它既是社会网络分析的重要研究领域,也是数据挖掘领域的研究方向之一,旨在通过节点属性和已观察到的链接来预测未知或未来链接的存在,研究的思路和方法主要基于马尔科夫链和机器学习。[51]例如,研究者将链接预测作为一种监督学习任务来研究,在确定一系列重要的网络特征的基础上,使用不同的性能指标,如准确性,精确度-召回率,F值,平方误差等,比较不同类别的监督学习算法的预测性能,其中包括决策树(decision-tree)、支持向量机、K近邻(K-NN)、多层感知器、RBF网络等算法,以发现支持向量机在所有性能指标上均略优于其他算法。
随着信息网络数据的规模越来越大,单个网络可能包含数十亿个节点和关系,传统的社会网络分析方法和技术难以处理如此庞大而复杂的网络推理过程。因此,必须解决网络表示学习(Network Representation Learning)的问题,其中网络嵌入(network embedding)是学习网络中节点低维表示的一种重要方法,其中心思想就是找到一种映射函数,使得网络中的每个节点转换为低维度的潜在表示。目前流行的方法为无监督的深度学习算法,主要包括Deep Walk、LINE、PTE和Node2vec等。[52]Deep Walk(即深度游走)是第一个被提出来使用表示学习方法,本质上是随机游走(Random Walk)和神经语言模型中的skip-gram的算法组合;Node2vec则是Deep Walk的扩展,它引入了一个偏向的随机游走程序,是结合广度优先搜索(BFS)和深度优先搜索(DFS)的领域搜索算法。[53]
最近,在健康传播研究领域,Node2vec这种先进的深度学习方法已经被用于研究在线论坛关于艾滋病交流的社会支持现象,研究者利用网络嵌入(即Node2vec)算法将论坛的每个成员表示为一个密集的向量,并结合聚类方法识别样本中不同的子种群和模式。另外,一项讨论社交媒体中疫苗接种与人类价值观关系的研究[54]也采用了网络嵌入的学习方法,基于对人们在Facebook“喜好”页面上的共现关系,利用Node2vec算法实现完全无监督学习,而不需要任何个体的先验信息,使同一邻域的节点保持“结构”等价性或同质性,从而探索反对疫苗接种者的共同兴趣。在基于嵌入模型的弱监督学习过程中,研究者Raisi &Huang[55]借助Word2vec和Node2vec模型分别将语言和用户表示为实数向量,用于实现对社交媒体网络欺凌的检测。
未来与展望
人工智能的迅猛发展已经影响到社会经济发展的方方面面,促进了科学与行业应用的深度结合,不仅推动了智能生活和智慧社会的构建,也深刻地改变了科学研究的深度和广度。在新闻业,人工智能已经渗透到新闻编辑室及新闻生产过程中,自动化新闻写作(Automated Writing)已然成为世界新闻业的新浪潮。但从社会科学研究的角度来说,我们更关注人工智能技术的发展为社会科学研究思维和研究方法所带来的挑战和机遇。在人工智能的引擎驱动下,数据挖掘、机器学习和深度学习等领域的知识创新和技术研发,为大数据时代新闻传播学的新研究范式——计算传播学的兴起和成长插上了想象的翅膀,提高了计算机辅助的研究手段在智能时代的功能和效率,突破了人类研究者在认识和理解复杂社会问题上所需体力、感官和智力的限制和禁锢。从研究方法、工具和策略创新的角度出发,人工智能视域下的计算传播学研究还存在进一步发展的空间。
建立可扩展的、广泛的自动化内容分析框架。随着计算方法的日益普及,不同的研究者在不同的研究课题上进行独立的研究工作,研究人员可能会使用特定的程序或付费服务采集数据,并使用不同的程序处理、计算和展示数据。这并不利于科学研究的持续性和可复现性。因此,我们迫切需要建立人工智能环境下使用和实现自动化内容分析的技术和操作标准。我们可以借鉴已有研究者(Trilling & Jonkman)[56]提出了扩展自动化内容分析框架的四个基本标准和思路,即可扩展性(scalability)、开源(open source)、适用性(adaptability)以及多界面(multiple interfaces)。
(1)可扩展性:当研究数据的规模较大时,研究者用于存储和计算的软件和算法必须具有可延展性,既要提高算法的效率(如对小数据采用稀疏矩阵),同时也要合理布局数据存储和处理的模块结构,例如,将非关系型的数据库(NoSQL)作为数据综合处理的后台。(2)开源:软件开源和代码共享有助于科学研究的重复检验和错误发现,而不是让算法和操作过程成为“黑箱”,由于文本分析和机器学习的包或组件(如NLTK、scikit-learn、gensim等)的广泛可用性,因此用Python编程语言实现开源可能是一个不错的选择。(3)适用性:与前两个标准紧密相关,适用性要求框架应该足够灵活、弹性,使不同能力的研究者能够通过合理的努力调整和扩展框架,不应该存在任何阻止分析来自不同语言和脚本的上下文的障碍,例如传播学者常常会面临的来自社交网络的表情符号、标签和混合语言等字符编码问题;同时,对研究项目的集成能力要求也将有助于提升框架的适应性。(4)多界面:虽然很多机器学习的自动化内容分析技术已经为人所知,特别是在计算机科学等领域,但是能够应用这些方法的传播学者却相对较少。同时,考虑技术的易用性不能以牺牲强化内容分析框架的可扩展性和适用性为代价,所以应该提供对框架的多种访问方法(如web界面、命令行界面、API等),以让具有不同需求和技术水平的研究小组都可以轻松驾驭。
为计算传播研究领域引入更丰富的深度学习策略。传播学研究的计算范式方兴未艾,虽然许多包括自动化文本分类、主题模型、情感分析、网络嵌入等机器学习算法已经被部分研究者引入传播研究中,但其应用范围依然十分有限;而且,传播学者整体上对机器学习的理解和运用程度还不及其他社会科学,如管理学、经济学和社会学等,更不用说计算机科学、网络科学等学科的研究者。从现有研究的成果来看,传播学者对文本或其他数据的处理主要采用传统的有监督学习方法,比如最大熵、支持向量机等浅层次学习,而鲜有对深度学习算法(如RNN、CNN、DNN等神经网络等)的涉猎,虽然深层网络结构的学习算法在自然语言处理、语音识别和图像识别方面已经取得很好的应用效果。如果这些学习方法被有效地引入计算传播学的研究当中,将有助于将数据处理从传统的结构型数据扩展至非正式文本、语音、图像等非结构或半结构数据。
由于社交媒体中人们的情感、态度和观点很可能以表情、标签、图片和视频等形式存在,一般的自动化文本分类方法难以应付这类数据。比如,针对短文本的文本分类任务,由于缺少上下文,短文本(如推文、微博等)在表示时通常会遇到数据稀疏性和模糊性问题。卷积神经网络(CNN)的深度学习算法,如基于词嵌入的深度学习模型,[57]无论是结合语义聚类信息的有监督学习模型,[58]还是无监督神经语言模型[59]都能够准确地完成情感分类学习。
对社会媒体中大规模的视觉内容进行情感分析,可以更好地提取用户对特定事件或话题的情感。一项深度学习的研究[60]采用基线情绪算法来标记网络相册的图片,提出了一种渐进的策略来微调深层卷积神经网络用于图像的情感分析;还有研究借助网络相片的标签作为统计线索来检测图像中描述的情绪,利用卷积神经网络模型对大型可视化数据库(ImageNet)进行了有效的情感分类[61]。
对视觉内容的情感预测是对文本情感分析的极其重要的补充。因此,与单独对文本和图像进行情感分析相比,文本和图像的结合可以更充分地揭示用户情感。鉴于此,有研究者开始关注多媒体(multimedia,即文本、图像)情绪分析深度学习方法[62],以及基于多核学习算法(multiple kernellearning, MKL)的多模态(multimodal)情感分析[63]。
不同于文本分类学习的火热,口头语言的情感识别(emotion recognition)至今仍然是研究较少的课题,曾有研究者(Nicholson, Takahashi & Nakatsu)[64]提出了一种基于神经网络的语音情感识别系统,利用大型音素词数据库,实现了说话者与上下文的独立,该系统对八种情绪的测试识别率达到了50%左右。然而,值得我们注意的是,人工神经网络的缺陷就是其典型的“黑箱”效应,即通过训练的神经网络所学到的知识及其背后的机制难以为人们所理解,深层神经网络的集成化又加剧了这一问题解决的难度。所以,这是计算传播学者在使用深度学习策略并解读机器学习结果时应该深刻认知的前提和基础。
跨学科合作推动人工智能与计算传播研究的深度融合。大数据和人工智能时代的计算传播学,在方法层面的创新是具有跨学科意义的。传播学在社会科学中一直是“领域学科”,具有“十字路口”的特征,尤其是新媒体和社交媒体的出现,传播学研究的问题和对象更是诸多学科纷纷涉足的领域,与此相反的是,当前传播学对其他学科方法的运用和贡献依然表现乏力。因而,传播领域向计算科学的演变,将带来促进该领域内部进行方法创新和发展的希望。
计算传播学以互联网环境下人类传播行为为研究客体,有着深厚传播学传统和大数据研究的基因,借助数据科学、网络科学的理论和方法发展起来的计算范式,正在成长为计算社会科学中的一股蓬勃向上的新生力量。人工智能同样也是跨学科的新兴领域,自然科学与人文社会科学的交叉协作促进了机器学习、深度学习走向更广阔、更深邃的科研疆域。对于计算传播学而言,一方面,我们欣喜地看到越来越多具有理工科训练背景(如物理学、计算机科学、生物学、数学等)的学者进入这个领域并扮演重要的角色;另一方面,目前机器学习的方法和策略框架尚未为更多计算传播学者所熟悉和使用,尤其是基于深度学习的社会网络和复杂网络理论和方法,在链接挖掘、网络表示学习、网络嵌入等方面的学习算法和应用技术,亟待更多的研究者去学习、挖掘和扩展。
当然,未来可期,当更多前沿的计算方法和机器学习技术进入这个领域时,传播学者将处于独特的战略地位,参与甚至领导计算方法的发展,这些方法有望为整个社会科学的提供关于人类互动本质和传播效果的新颖的、令人兴奋的见解,[65]从而使计算传播学超越学科的界限而成为真正的“超学科”社会科学研究,也就是以人类交流传播为基础性问题,以多学科(主要是传播学、数据科学、网络科学等)方法融合为统一的方法框架、以“现象学”意义上的大数据为经验基础,实现人工智能与计算传播学的深度融合和跨越式发展。
(深圳大学传播学院副研究员黄文森对本文亦有贡献)
注释
[1]Lazer, D.; Pentland, A. & Adamic, L. et al., "Computational Social Science", Science, 2009, 323(5915), pp. 721-723.
[2][5]Van Atteveldt, W. and Peng, T. Q., "When Communication Meets Computation: Opportunities, Challenges, and Pitfalls in Computational Communication Science", Communication Methods and Measures, 2018, 12(2-3), pp. 81-92.
[3][22]罗俊:《计算社会科学与人工智能》,《贵州师范大学学报(社会科学版)》, 2016年第6期,第40~42页。
[4]Shah, D. V.; Cappella, J. N. & Neuman, W. R., "Big Data, Digital Media, and Computational Social Science: Possibilities and Perils", The ANNALS of the American Academy of Political and Social Science, 2015, 659(1), pp. 6-13.
[6]Peng, T. Q.; Liang, H. & Zhu, J. H., "Introducing Computational Social Science for Asia-Pacific Communication Research", Asian Journal of Communication, 2019, 29(3), pp. 205–216.
[7]罗卫东:《跨学科社会科学研究:理论创新的新路径》,《浙江社会科学》,2007年第2期,第35~41页。
[8]Poole, M. S., "Generalization in Process Theories of Communication", Communication Methods & Measures, 2007, 1(3), pp. 181-190.
[9][24][65]Hilbert, M.; Barnett, G. & Blumenstock, J. et al., "Computational Communication Science: A Methodological Catalyzer for a Maturing Discipline", International Journal of Communication, 2019, 13, p. 23.
[10]Zhu, J. H.; Zhou, Y. & Guan, L. et al., "Applying User Analytics to Uses and Effects of Social Media in China", Asian Journal of Communication, 2019, 29(3), pp. 291-306.
[11]Webster, J. G.; Phalen, P. F. and Lichty, L. W., Ratings Analysis: Audience Measurement and Analytics, 4th Edition, UK: Routledge, 2014.
[12][17]沈浩、黄晓兰:《大数据助力社会科学研究:挑战与创新》,《现代传播(中国传媒大学学报)》,2013年第35卷第8期,第13~18页。
[13]Zumel, N. and Mount, J., Practical Data Science with R, Manning Publications Co., 2014.
[14]Tony; Stewart & Kristin, "The Fouth Paradigm: Data-Intensive Scientific Discover", Microsoft Research, 2009.
[15]方锦清、汪小帆、郑志刚等:《一门崭新的交叉科学:网络科学(上)》,《物理学进展》, 2007年 27卷第3期,第239~343页。
[16]Watts, D. J., "A Twenty-first Century Science", Nature, 2007, 445(7127), p. 489.
[18]米加宁、章昌平、李大宇、林涛:《第四研究范式:大数据驱动的社会科学研究转型》,《社会科学文摘》,2018年第4期,第20~22页。
[19]王延飞、刘记、赵柯然、陈美华:《智能信息技术发展现状、趋势与影响透视》,《情报学进展》,2018年第12卷,第117~153页。
[20]姚艳玲、开滨:《近五十年国际上人工智能领域跨学科演变研究》,《计算机工程与应用》,2017年第53卷第19期,第8~16页。
[21]Spiegeleire, S.; Maas, M. & Sweijs, T., Artificial Intelligence and the Future of Defense: Strategic Implications for Small and Medium Sized Force Providers, The Hague Centre for Strategic Studies, 2017.
[23]王珏、石纯一:《机器学习研究》,《广西师范大学学报(自然科学版)》,2003年第2期,第1~15页。
[25]Arendt, F. and Karadas, N., "Content Analysis of Mediated Associations: An Automated Text-analytic Approach", Communication Methods and Measures, 2017, 11(2), pp. 105-120.
[26]Scharkow, M., "The Maticcontent Analysis Using Supervised Machine Learning: An Empirical Evaluation Using German Online News", Quality & Quantity, 2013, 47(2), pp. 761-773.
[27]Ceron, A.; Curini, L. & Iacus, S., "To What Extent Sentiment Analysis of Twitter is Able to Forecast Electoral Results? Evidence from France, Italy and the United States", ECPR General Conference, 2013, pp. 5-8.
[28]何清、李宁、罗文娟、史忠植:《大数据下的机器学习算法综述》,《模式识别与人工智能》,2014年第27卷第4期,第327~336页。
[29]余凯、贾磊、陈雨强、徐伟:《深度学习的昨天、今天和明天》,《计算机研究与发展》,2013年第50卷第9期,第1799~1804页。
[30]Le Cun, Y.; Boser, B. & Denker, J. S. et al., "Back Propagation Applied to Hand Written Zip Code Recognition", Neural Computation, 1989, 1(4), pp. 541-551.
[31]Krizhevsky, A; Sutskever, I. & Hinton, G. E., "Image Net Classification with Deep Convolutional Neural Networks", Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
[32]Casas, A. and Williams, N. W., "Images that Matter: Online Protests and the Mobilizing Role of Pictures", Political Research Quarterly, 2019, 72(2), pp. 360-375.
[33]梅立润:《国内社会科学范畴中人工智能研究的学术版图》,《内蒙古社会科学(汉文版)》,2019年第40卷第3期,第203~212页。
[34]Lacy, S.; Watson, B. R., & Riffe, D. et al., "Issues and Best Practices in Content Analysis", Journalism & Mass Communication Quarterly, 2015, 92(4), pp. 791-811.
[35]Krippendorff, K., Content analysis: An introduction to Its Methodology, Sage Publications, 2018.
[36]Mahrt, M. and Scharkow, M., "The Value of Big Data in Digital Media Research", Journal of Broadcasting & Electronic Media, 2013, 57, pp. 20-33.
[37]Pilny, A.; McAninch, K. & Slone, A., et al., "Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty", Communication Methods and Measures, 2019, pp. 1-18.
[38][40]Vander Meer and Toni GLA, "Automated Content Analysis and Crisis Communication Research", Public Relations Review 42.5, 2016, pp. 952-961.
[39]Jonkman and Jeroen, "Verhoeven, Piet, From Risk to Safety: Implicit Frames of Third-party Airport Risk in Dutch Quality Newspapers between 1992 and 2009", Safety Science, 2013, 58, pp. 1-10
[41]Feldman, R., "Techniques and Applications for Sentiment Analysis", Communications of the ACM, 2013, 56(4), pp. 82-89.
[42]钟智锦、王童辰:《大数据文本挖掘技术在新闻传播学科的应用》,《当代传播》, 2018年第202卷第5期,第14~20页。
[43]Vargo, C. J; Guo, L. & McCombs, M. et al., "Network Issue Agendas on Twitter During the 2012 US Presidential Election", Journal of Communication, 2014, 64(2), pp. 296-316.
[44]郑雯、桂勇、黄荣贵:《论争与演进:作为一种网络社会思潮的改革开放——以2013~2018年2.75亿条微博为分析样本》,《新闻记者》,2019年第1期,第51~62页。
[45]Ortigosa, A.; Martín, J. M. & Carro, R. M., "Sentiment Analysis in Facebook and Its Application to E-learning", Computers in Human Behavior, 2014, 31, pp. 527-541.
[46]Turney, P. D., "Thumb Support Humbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 417-424.
[47]Paltoglou, G. and Thelwall, M., "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media", ACM Trans Intell Syst Technol (TIST), 2012, 3(4), p. 66.
[48]Hu, X.; Tang, J. & Gao, H. et al., "Unsupervised Sentiment Analysis with Emotional Signals", Proceedings of the 22nd International Conference on WorldWideWeb. ACM, 2013, pp. 607-618.
[49]Zhai, Z.; Xu, H. & Jia, P., "An Empirical Study of Unsupervised Semantic Classification of Chinese Reviews", Tsinghua Science and Technology, 2010, 15(2), pp. 133-137.
[50]Getoor, L. and Diehl, C. P , "Link Mining: A Survey", Acm Sigkdd Explorations Newsletter, 2005, 7(2), pp. 3-12.
[51]吕琳媛:《复杂网络链路预测》,《电子科技大学学报》,2010年第5期,第651~661页。
[52]Qiu, J.; Dong, Y., & Ma, H. et al., "Network Embedding A Smatrix Factorization: Unifying Deep Walk, Line, Pte, and Node2vec", Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018, pp. 459-467.
[53]Grover, A. and Leskovec, J., "Node2vec: Scalable Feature Learning for Networks", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, August 2016, 13-17, pp. 855-864.
[54]Kalimeri, K.; GBeiró, M. & Urbinati, A., et al., "Human Values and Attitudes towards Vaccination in Social Media", Companion Proceedings of The 2019 WorldWideWeb Conference. ACM, 2019, pp. 248-254.
[55]Raisi, E. and Huang, B., "Co-trained Ensemble Models for Weakly Supervised Cyberbullying Detection", NIPS Workshop on
Learning with Limited Labeled Data, 2017.
[56]Trilling; Damian; Jonkman & Jeroen, G. F., "Scaling up Content Analysis", Communication Methods and Measures, 2018, 12(2/3), pp. 158-174.
[57]Mikolov, T.; Sutskever, I. & Chen, K. et al., "Distributed Representations of Words and Phrases and the Incompositionality", Advances in Neural Information Processing Systems, 2013, pp. 3111-3119.
[58]Wang, P.; Xu, J. & Xu, B. et al., "Semantic Clustering and Convolutional Neural Network for Short Text Categorization", Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Volume 2, Short Papers, 2015, pp. 352-357.
[59]Severyn, A. and Moschitti, A., "Twitter Sentiment Analysis with Deep Convolutional Neural Networks", Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015, pp. 959-962.
[60]You, Q.; Luo, J. & Jin, H. et al., "Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks", Twenty-ninth AAAI Conference on Artificial Intelligence, 2015.
[61]Chen, T.; Borth, D. & Darrell, T. et al., "Deep Sentibank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks", arXiv preprint arXiv: 1410. 8586, 2014.
[62]Cai, G. and Xia, B., "Convolutional Neural Networks for Multimedia Sentiment Analysis", Natural Language Processing and Chinese Computing, Springer, Cham, 2015, pp. 159-167.
[63]Poria, S.; Peng, H. & Hussain, A. et al., "Ensemble Application of Convolutional Neural Networks and Multiple Kernel Learning for Multimodal Sentiment Analysis", Neuro Computing, 2017, 261, pp. 217-230.
[64]Nicholson, J.; Takahashi, K. & Nakatsu, R., "Emotion Recognition in Speech Using Neural Networks", Neural Computing & Applications, 2000, 9(4), pp. 290-296.
责 编/周于琬
Artificial Intelligence and Computational Communication
Chao Naipeng
Abstract: Artificial intelligence (AI) has swept the world, not only changing the way of human life and communicative behaviors, but also changing the way people observe and understand the world. The computational paradigm driven by AI and big data has extended to the field of social science. Influenced and inspired by the traditional quantitative research paradigm of communications, data science and network science, computational communication is developing rapidly and has become one of the most important branches of computational social science. From data mining to machine learning, and to deep learning, AI algorithm and technology has greatly improved the accuracy and efficiency of big data processing. At present, by combining with the unsupervised and supervised learning methods, automatic content analysis, emotional analysis and social network analysis can provide computational communication with research strategies and experience in terms of data processing, integration and analysis. In the future, by developing and establishing an extensible automatic content analysis framework and system, introducing more in-depth learning strategies and innovating interdisciplinary research methods, it will help AI and computational communication to achieve deeper integration in a broader interdisciplinary field.
Keywords: Computational communication, artificial intelligence, machine learning, deep learning
巢乃鹏,深圳大学传播学院院长、教授、博导。研究方向为网络传播与新媒体研究、计算传播学。主要著作有《网络受众心理行为研究:一种信息查寻的研究范式》《网络广告原理与实务》《网络媒体经营与管理》等。