【摘要】随着大数据和人工智能的兴起,机器学习等算法在工业生产和商业活动中被逐步推广和应用,但在此过程中产生的算法歧视问题也愈发普遍,并引起了广泛关注和思考。本文对算法歧视的众多表现及成因进行探讨,并据此提出算法歧视问题的治理策略。
【关键词】算法歧视 大数据“杀熟” 治理策略 【中图分类号】TP304.6 【文献标识码】A
算法歧视是以算法为手段实施的歧视行为,主要指在大数据背景下、依靠机器计算的自动决策系统在对数据主体做出决策分析时,由于数据和算法本身不具有中立性或者隐含错误、被人为操控等原因,对数据主体进行差别对待,造成歧视性后果。算法歧视问题不仅使算法无法充分发挥其正向效用,也成为大数据科学及人工智能技术推广中不可忽视的障碍。对于用户而言,算法歧视问题侵害用户个人权益及尊严感。对于企业而言,一方面,算法歧视可能会导致企业的直接经济损失,比如信息推送不精确、广告投放对象偏差、人才招聘选择范围过窄等问题;另一方面,算法歧视问题会通过影响用户满意度而间接影响企业的收益及企业声誉。因此,算法歧视问题对用户和企业都可能带来不利影响。另外,算法“黑箱”等信息不对称性的存在导致歧视现象潜藏得更加深入而不易被察觉,也给治理算法歧视问题带来了新的挑战。
随着信息科技将持续迅猛发展,解决算法歧视问题对于发挥算法应用对生产生活等各领域高效发展的正向作用具有重要的现实意义。本文将对金融借贷平台借贷歧视、平台型企业大数据“杀熟”、人工智能相貌歧视、AI机器人发表歧视性言论等算法歧视问题的表现进行阐述;并对算法歧视问题背后的成因进行归纳分析,主要包括算法思维的固有缺陷、算法设计者的主观歧视思想、算法设计过程中的数据及技术漏洞、算法“黑箱”等信息不对称性的存在等;最后基于成因分析从IT行业、用户及政府、媒体等角度探讨算法歧视问题的治理路径。
算法歧视的表现
随着算法在金融、互联网服务等行业的深入运用,金融借贷平台借贷歧视、互联网平台大数据“杀熟”等算法歧视现象屡见不鲜;而算法在日常生活中的广泛应用,常用软件以及AI聊天机器人等也因算法歧视问题引起热议。
首先,金融借贷平台借贷歧视是社会歧视思想的延伸。在普惠金融蓬勃发展的今天,歧视现象仍然在金融行业普遍存在。金融网贷平台避免了金融机构与用户面对面接触,本应使借贷变得更公平。然而,随着大数据挖掘算法与金融行业的深层融合,算法能够更轻易地挖掘到用户的私人信息,并根据这些信息对用户的借贷限额及借贷利率等进行差别对待,这使得网络金融借贷平台歧视行为与线下金融借贷机构几乎别无二致。加州大学伯克利分校教授在对网贷平台进行研究时发现,算法和线下借贷一样会对借款人进行歧视。该研究选取美国最大的借贷机构之一的Quicken Loans在线平台作为案例研究对象。研究发现,在线下借贷机构受到歧视的群体在金融借贷平台上仍然会遭到歧视,且他们的在线贷款申请利率一般会比普通群体高出5.3个基点,这与其在线下借贷机构贷款时需要额外支付的5.6个附加点十分相近。而这种利率差别并不是由信誉差异导致的,而是由算法歧视造成的。
其次,大数据“杀熟”是互联网平台逐利思想的体现。大数据时代算法歧视问题的典型表现就是互联网平台对老用户“杀熟”。大数据“杀熟”指互联网平台利用大数据挖掘算法获取用户信息并对用户进行“画像”分析,进而对不同消费者群体提供差别性报价,以达到销售额最大化或吸引新用户等目的的行为。这种企业“杀熟”现象的本质是通过一定的算法筛查,对用户群体进行分类,形成一套端口多套服务的模式。而这里的“熟”指的是那些已经被大数据挖掘算法充分掌握信息的用户。此前,一篇关于大数据“杀熟”的文章冲上微博热搜,文章作者发现,使用某外卖平台APP在同一时间同一家店进行点餐,会员的配送费反而要比非会员的配送费多4元。随后作者又查看了附近的其他外卖商家,发现开通会员的账号普遍比不开通会员的账号多支付1元—5元。事实上,大数据“杀熟”现象不仅仅出现在外卖平台上。根据2019年北京消费者协会的社会调查数据,有56.92%的被调查者有过被大数据“杀熟”的经历,而认为大数据“杀熟”现象很普遍的被调查者比例高达88.32%。另外,调查显示购物类、旅游类、打车类等平台APP均存在着大数据“杀熟”现象(见图1)。
再次,修图算法歧视争端是数据集引发的算法歧视。人工智能技术的普及不仅让人类的生产生活更加便利,也帮助人类将更多难以实现的事变成现实,满足了人类的精神慰藉和关怀需求。例如,人工智能技术可以帮助人类与逝者“对话”、陪伴独居老人等。然而,一些本意旨在实现人文关怀的人工智能技术反而带来了算法歧视问题,导致科技的应用目标无法实现。例如,杜克大学推出的一款修图算法能够将模糊照片清晰修复,凭借这一功能,用户可以将具有纪念意义的旧照片进行复原。然而,一位用户将一张模糊人像照片输入该算法后,得出的照片却与本人的相貌大相径庭,此事引起美国网民的激烈讨论。民众认为该算法带有严重的外貌歧视性,由此引发了人们对人工智能技术的质疑。对此,图灵奖得主Yann Lecun从专业角度给出了答案:该修图算法结果偏差主要原因在于数据偏差,该修图算法进行预训练的数据集储存的人像照片来源有限,复原的照片外貌特征与数据集里照片相似,导致算法最终得出的照片与本人差距较大。
最后,AI聊天机器人的歧视性言论是机器学习缺乏信息过滤机制。随着人工智能的不断发展,AI机器人被广泛使用。AI聊天机器人通过在交互情景中对信息进行学习、储存来模仿人类对话,进而实现与用户进行交互对话,并具备协助用户对日常工作进行记录和信息搜索等功能。一旦AI聊天机器人在学习过程中学习到了带有歧视性的信息,就会引发算法歧视问题。由韩国研发的一款AI聊天机器人能够通过在交互情景中学习对话而能像真人一样和用户聊天。然而让人意外的是,这款AI聊天机器人在与用户进行交互的过程中,发表了歧视残疾人、孕妇、同性恋等群体的不当言论,而这些观点正是AI机器人在与用户交互的过程中学习到的。AI机器人在未来会被更广泛地普及应用,AI机器人发表言论是否正向积极直接关系到用户的使用体验及身心健康,而AI机器人导致的算法歧视问题也可能会引发更严重的社会歧视问题。
算法歧视的成因
针对上述算法歧视的问题,现从算法思维的固有缺陷、算法设计者的歧视思想、算法设计过程中的数据及技术漏洞以及算法“黑箱”等信息不对称性等方面对算法歧视问题的成因进行分析。
一是算法思维的固有缺陷。一方面,经验普适性与个例特殊性之间存在矛盾。算法依据人类所设置的固定逻辑解决问题,这种固定逻辑通常只能描述普遍适用的经验事实,而忽略现实中的小概率事件。这很容易导致经验上的相关性被算法夸大为必然存在的因果关系,造成算法逻辑过于绝对,最终导致对少数群体的算法歧视。然而,在现实生活中,人类除了会根据经验进行判断决策外,还会对某些偶然出现的特殊个例事件随机应变地做出反常规决策。例如,人类在经验上认为高学历应聘者具备更强的工作能力,因此在招聘平台APP上,未达到职位学历要求的应聘者会直接被算法筛选淘汰,导致其无法获得公平竞争的机会;但对于线下招聘,即使一些应聘者未达到职位的学历要求,但其丰富的工作经验或精辟独到的见解等优势都有机会让HR放宽对职位的学历限制而对其破格录用。这种反常规决策通常具有极大的随机性和不确定性,因此难以从中总结出具有规律性的逻辑思路并形成算法。也就是说,人类只能尽可能地将自己在常见案例中所运用的经验判断逻辑形成算法,却不可能将在特例中运用到的反常规判断逻辑全部都形成算法。这就导致了算法决策始终与人工决策存在一定差距,这种差距只能被尽可能缩小,却不可能被彻底消除。
另一方面,算法简化及归类思想与对象异质性存在冲突。为了尽量精简快捷地运用算法解决问题,算法设计者通常会先将对象进行分类简化,进而对不同类别的群体针对性赋予程序指令。在群体分类及定义的过程中,个体依据共性特征被分类,而异质性特征却被忽略。当算法对象是人时,人既具有一定的共性,使其能够归纳分类为群体,也具有复杂性、多元性,每个个体在各方面的特征都不尽相同。例如,电商平台在进行产品推送时,可能会对女性用户一味地推送裙子、高跟鞋等商品,这些在传统意义上为女性消费者量身定做的商品并不一定符合全部女性的购物偏好。因此,群体的差异性程序指令可能会使群体在共性上得到公平对待,却在特性上受到歧视。这一现象由算法的归类简化思想导致,特别是在大数据科学中应用更为普遍。当个体数量庞大时,个体异质性无法被充分考虑,这是导致少数个体被算法歧视的原因之一。
二是算法设计者存在主观歧视思想。一方面设计者主观认知偏见。当今社会中,偏见思想仍然普遍存在。算法是人类思想的体现,如果算法设计者主观上具有偏见思想并将主观意愿及隐含偏见写进算法中,就必然会造成算法歧视问题。不仅如此,随着大数据科学的普及和应用,算法设计者能够更加轻易地获取到用户的私人信息,这造成歧视行为更加变本加厉。金融借贷平台的借贷歧视等算法歧视现象实际上就是社会歧视性思想的体现,归根结底是由观念认知偏差所引起的,而不是信息科技发展所带来的不良后果。事实上,算法是人类为提高生产生活的便捷程度而创造和设计的工具,它固然是一把双刃剑,但企业和算法设计者以中立的态度合理地利用算法可以使其更好地发挥正向效用。另一方面设计者逐利思想驱使。除了主观认知偏见之外,逐利思想也是造成算法歧视的主要原因,其中大数据“杀熟”就是逐利思想驱使导致算法歧视的典型表现。算法设计者为了获取更高的利益,通过提供更优越的条件吸引潜在价值更高的用户,这无疑使其他用户遭受不公平待遇。相比于主观认知偏见,逐利思想下被算法歧视的群体更容易通过消费等行为突破歧视壁垒,这也正是算法设计者设计歧视性算法的主要目的之一。也就是说,算法设计者通过有意为之的歧视,达到吸引用户关注、刺激用户消费等目的,进而为自身创造更大的经济利益。事实上这也是人类思想主导下的算法歧视,而不是算法发展的必然后果。
三是算法设计过程中存在数据及技术漏洞。首先是算法选取样本分布不均。除了设计过程中导致算法歧视问题外,数据集也是导致算法歧视问题的主要原因之一。与修图算法的歧视争端类似,在数据采样过程中若数据来源集中于部分群体,而忽略其他群体,那么算法仅能捕捉到被采样群体的特征,其输出的信息也仅适用于被采样群体,而那些未被采样的群体就有可能成为被歧视的对象。因此,即便算法具有公正的设计思想,若所选取的数据样本分布不均,也会导致严重的算法歧视问题。其次是机器学习过滤标准过松。具有学习功能的算法除了能够体现算法设计者的思想外,还融合了用户的思想。机器学习算法会在与用户交互的过程中学习用户行为,这些学习到的用户行为信息可能会被储存并应用于类似的交互情景中。尽管机器学习算法的设计初衷是通过对信息和数据的学习,提高输出信息及数据的精准度。特殊地,对于AI机器人等交互式机器学习算法,算法通过学习人类行为信息来扩充信息库,进而提高AI机器人对人类的模仿能力。然而,目前带有学习功能的算法通常缺乏严格的信息甄别和过滤功能,带有歧视性的信息不能提前被识别过滤而被一并提供给算法进行学习,算法一旦在这一过程中学习并储存了具有歧视性的信息,就极大可能会在其他交互情景中输出带有歧视性的信息,进而导致更严重的算法歧视问题。
四是算法“黑箱”等信息存在不对称性。由于算法从输入数据到输出决策结果的逻辑过程并不向外界公开,因此形成了算法“黑箱”。用户在使用算法时仅能获知算法运行的结果,而算法使用的数据、分析逻辑等关键过程则被算法“黑箱”隐藏,算法的非透明性导致算法歧视更加隐蔽。此外,算法设计者由于掌握着大数据信息而占据信息优势,从而能够更轻易地对用户进行区别对待;而用户间却并不了解彼此的信息,且在大多数情况下用户只能查看到自己使用算法的运行结果,而不了解其他用户的运行结果。这导致用户甚至无法发现自己已经成为了被歧视群体的一员。如前文中的外卖平台大数据“杀熟”案例中,该作者通过对比两个账号才发现会员账号的配送费比非会员账号更高,信息不对称性使算法歧视问题变得隐蔽而不易被发现。
总而言之,无论是算法本身的训练数据、运行分析逻辑还是用户信息及运行结果,用户所掌握的信息都少于算法设计者,这使得用户处于弱势地位,最终成为算法歧视的受害者。
算法歧视的治理
算法歧视问题严重损害用户的基本权益,迫切需要对其进行相应治理。根据对算法歧视问题成因的分析,主要可以从算法设计者、用户及政府、企业及媒体等第三方主体进行展开,探讨算法歧视的治理路径。
第一,加强IT行业风险防控。首先是加强从业者职业道德建设。IT行业应编写从业者职业道德指南,并定期组织从业者参加行业相关法律法规和职业道德伦理学习并开展评估测试,杜绝从业者为赚取利益而设计歧视性算法的行为,并尽量避免其将偏见思想融入算法程序设计中;对从业人员建立完善的评价体系和定期考核制度,建立完善的用户评价、投诉体系并建立相应的奖惩制度,尤其应注意对用户满意度的调查分析。其次是建立数据采集标准。由于数据中包含大量信息,因此其在算法中是至关重要的。IT行业应针对从业人员在设计算法过程中的数据采集等工作制定规范细则,从业者需依据行业规范细则对数据来源、采集范围、采样数量等信息及时进行记录说明,并定期接受监督和审查,尽可能保证在各群体中数据的充分和均匀采集,以避免由于数据样本缺失或采样不均而产生的算法歧视问题。最后是建立风控审查机制。对于算法的设计过程中的技术漏洞问题,IT行业应加强从业者对规避算法风险相关知识的学习,使算法设计者有良好的风险防控意识及风险预判能力。IT行业应该对算法是否具备输入信息的筛查过滤机制进行严格审查。对于机器学习算法而言,用户输入信息必须经过识别及过滤,才能供给机器学习算法进行学习;对于大数据科学而言,信息过滤机制能够严格剔除掉那些带有隐私敏感信息的数据,使算法先完成数据脱敏过程再进入运算环节,从而降低数据引发算法歧视问题的风险。
第二,提高用户防范意识。首先是注意私人信息的保护。随着互联网技术的发展,用户的运动轨迹、手机品牌、出行记录等日常行为信息都有可能被大数据算法捕捉而成为算法歧视的“数据供应商”。因此,用户在日常生活中要增强个人信息保护意识,严格把控APP数据读取授权,以免被一些挖掘隐私信息的算法盗取信息。其次是提高警惕性和维权意识。由于存在算法“黑箱”与信息不对称性,用户有时会难以发现自己成为了被歧视群体的一员。对此,用户应在日常使用平台APP、AI机器人等过程中保持高度警惕,谨防受到不公平待遇。
另外,用户应提升维权意识。2019年北京消费者协会进行的社会调查结果(见图2)显示,在遭遇大数据“杀熟”后采取投诉方式进行维权的用户仅占26.72%,向媒体求助的用户占比8.13%。尽管作为个体,用户的力量薄弱,但仍应保有话语权。在一个用户背后是被歧视用户的庞大群体,用户应意识到算法歧视问题的严重性,一旦发现自己遭遇算法歧视,应在第一时间保留好证据,积极寻求正当渠道进行维权。
第三,政府、媒体等第三方实现联合监管。首先是完善法律法规制度。我国作为一个法治国家,法律具有强大的约束力,通过法律手段对IT行业进行约束是治理算法歧视问题最有力的手段。在当前人工智能时代,算法应用越来越广泛,涉及到多个行业、领域,因此要从法律层面治理算法歧视问题,规范算法的使用范围、方式和底线。与此同时,算法歧视涉及算法设计者、商家和用户等多个主体,对于不同对象,法律都应详细规定其行为规范,明确应承担的责任和义务。相关部门应该出台相应的法律来规制算法设计者的行为,明确在算法设计过程中存在恶意歧视行为的惩罚制度并严格执行,以避免其侵犯用户的合法权益。我国当前相关法律主要侧重于对信息内容的管控,如已颁布的《互联网文化管理暂行规定》《互联网群组信息服务管理规定》法律文件等,而对于算法歧视设计主体的行为规范仍需进一步努力。此外,我国还应建立数据审查、问责、监管及补救机制。在算法设计过程中,要确保数据来源真实、合理且合法,保证数据收集过程透明且可追溯,并建立严格的审查制度,对数据采集进行监管。2021年7月6日,国内数据领域首部基础性、综合性立法《深圳经济特区数据条例》在深圳市人大常委会网站公布,该《条例》于2022年1月1日起施行。《条例》明确规定,个人数据在被处理前务必向自然人履行告知义务、征得自然人的同意,且自然人有权拒绝数据个性化服务等。未来,大数据体量将持续增加,我国应继续推进对数据采集处理的监管与治理工作,保障用户的合法权益。其次是加强道德伦理监督。由于受到社会环境的影响,算法设计者可能具有对某一群体的歧视思想,由此可能导致算法设计中缺乏中立性。一旦歧视性或偏见性思想融入算法设计过程中,算法必然会输出歧视性的运行结果。政府应严格把控从业准入道德标准,对从业者的职业道德学习、测评及IT行业评价及投诉体系的建立进行监督;媒体应发挥正向的倡导作用,普及算法歧视的相关知识,引导正确的价值导向,对算法歧视问题予以充分关注并及时曝光;社会各界应对算法歧视问题进行及时举报和投诉。最后是实现多方监管。当前,一些研究者们提出通过“算法透明”来解决算法歧视问题。然而,算法作为企业的技术成果与核心竞争力,如果全部透明暴露在大众视野中,很容易受到黑客攻击而造成损失,因此“算法透明”在现阶段难以完全实现。对此,许多研究者积极研发技术工具,以期在保证算法精准性的同时尽可能地避免歧视问题发生。例如,由数据科学家Been Kim所在团队研发的“概念激活向量测试”(Testing with Concept Activation Vectors)技术,该技术能够使算法“黑箱”变得可解释,进而据此判定算法是否存在歧视问题。随着类似技术的发展成熟,算法设计者可以将算法转换成可解释的逻辑并进行公开,接受政府、业内专家、用户及社会各界的多方监督,在保留其机密信息的同时对算法进行监管,降低算法歧视问题发生的概率。
总的来说,算法歧视问题使算法无法充分发挥其正向效用,损害了用户的体验感与商家的利益,给算法推广使用带来了阻碍。算法的发展应用应始终秉承着“以人为本”的原则,任何群体都有权利享受算法所带来的红利,而非成为被算法歧视的对象。未来,随着社会各界对算法歧视问题的认知逐渐加深以及对算法歧视多方治理的逐步实现,算法一定能在帮助人类高效生产、便捷生活的同时,实现人文关怀价值,充分尊重人类的平等权利与尊严。
(作者为湖南大学工商管理学院副院长,教授、博导)
【参考文献】
①韩勇:《算法歧视的成因及治理路径》,《青年记者》,2021年第8期。
②宋素红、王跃祺、常何秋子:《算法性别歧视的形成逻辑及多元化治理》,《新媒体》,2020年第5期。
③刁生富、张艳:《人工智能时代的算法歧视及其治理路径》,《佛山科学技术学院学报》(社会科学版),2021年第1期。
④张力、郑丽云:《算法推荐的歧视与偏见》,《传媒先锋》,2020第7期。
责编/韩拓 美编/杨玲玲
声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。