网站首页 | 网站地图

人民论坛网·国家治理网> 前沿理论> 正文

加强大数据治理,防范“大数据自大”

摘 要:依托大数据、互联网和信息技术的发展,数字经济已经成为我国高质量发展的新引擎,对经济发展、社会治理、人民生活等方方面面都产生了重要影响。但是,对大数据这一数字经济的关键要素,目前在治理方面仍存在不少挑战。为此,要着力防范“大数据自大”陷阱,加强大数据治理,为充分发挥大数据在国家治理现代化中的作用打下坚实基础。

关键词:大数据治理 大数据自大 政策建议

【中图分类号】D63 【文献标识码】A

由于大数据具备“海量、实时、多类型”等特征, 依托大数据、互联网和信息技术的发展,我国数字经济蓬勃发展,已经成为高质量发展的新引擎。但是,对大数据这一数字经济的关键要素而言,目前在治理方面仍存在不少挑战,尤其是存在过于强调大数据发展优势而忽略其中可能存在问题的倾向。为此,本文旨在着重探讨大数据治理中需要防范的“大数据自大”陷阱。

“大数据”和“传统数据”收集过程的差异

大数据在收集和分析方式上与传统数据存在较大差异。传统统计数据的收集主体是国家统计部门(“统计”在英文中与“国家”同一词根)和特定研究机构。无论是人口普查还是抽样调查,在收集数据前往往需要经过确定收集数据的目标、根据该目标设计问卷或者确定收集方法、组织数据采集团队、对数据收集做好质量控制等步骤。对于抽样调查,还需要详细的确定抽样框的步骤。尤其重要的是,传统数据的统计必须遵守相关法律法规,如《中华人民共和国统计法》《中华人民共和国统计法实施条例》等。因此,传统数据的收集主体相对清晰,数据收集目标相对明确,存在规范的收集流程;一旦统计数据出现质量问题,也有明确责任人。

与传统数据的收集相比,大数据往往不是为了特定目标收集,而是企业运营过程中产生的副产品。例如,谷歌作为搜索引擎,最初只是为用户提供便捷的搜索工具,但随着用户搜索量的增加,用户搜索的信息本身沉淀为搜索大数据。又如淘宝最初只是让消费者和厂商可以在线上达成交易的平台,但双方的交易形成了交易大数据。简而言之,大数据的收集不再是某一主体为了特定目标而主动展开的统计项目,收集过程往往由数据采集平台和机构自行决定,因此对外界来说是“黑箱”。由于目前我国还没有相应法律法规来规范大数据收集过程中的责、权、利问题,大数据的质量以及基于大数据的分析如果出现问题也存在难以追责的现象。

“大数据自大”的提出

“大数据自大(Big Data Hubris)”问题最早由Lazer等学者在2014年发文讨论谷歌公司预测美国流感发病率项目时提出。2008年11月,谷歌公司启动了GFT(谷歌流感趋势)项目以预测美国疾控中心报告的流感发病率。2009年,GFT团队在《自然》发文称,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比美国疾控中心提前两周预报2007—2008季流感的发病率。2014年, Lazer等学者在《科学》发文指出,2009年GFT没有能预测到非季节性流感A-H1N1;从2011年8月开始的108周里,GFT有100周高估了美国疾控中心报告的流感发病率,高估程度达1.5倍—2倍多。

Lazer等学者认为,“大数据自大”是这一预测错误的主要原因之一。这里,它是指一家机构认为自己拥有的“海量数据”就是“全量数据”,因此在分析定位上认为大数据比科学抽样基础上形成的传统数据更优越。虽然近年来大数据与各类传统数据相结合的分析受到了一定程度的重视,但是在实践中却仍然存在“大数据自大”现象。

“大数据自大”的现实表现

忽略大数据可能存在的结构变化

由于大数据相关技术在我国运用的时间还比较短,在对经济和金融相关的预测中,尚不存在可以跨越较长经济周期的大数据。而大数据分析所依据的机器学习或者深度学习模型,都假定了训练数据的生成机制和真实数据的生成机制是相似的,即不存在结构性变化。这一假定在较短时间内可能成立,但是如果经济出现结构性变化,就会产生过去运行良好的模型忽然预测不准的现象。例如,在经济繁荣时期训练出的判断个人是否会逾期或者形成不良贷款的风控模型,在经济下行时期就可能低估实际不良率的发生,导致对风险的预备不足。

忽略大数据可能不具备代表性

第一,不同平台或者机构有其特定的消费人群。因此分析结论可能仅适用于该平台或机构、未必可以代表全国或某一地区的状况。然而一个常见现象是,网络新闻平台采用该平台的浏览大数据来分析各省人群的阅读习惯差异,餐饮行业平台采用在这个平台上产生的大数据来分析不同城市的夜间经济,报告结果往往直接阐述为“XX省的读者更偏好娱乐类新闻”“XX市夜间经济特征”等。当相关企业将这类报告报送有关部门时,解读这类报告中的趋势和特征就需要注意,这类报告的分析包含了两部分因素:一是全国或者某一地区人民阅读或者餐饮的真实特征和趋势;二是该平台自身需求所带来的结构性变化。如果忽略了第二种因素,就可能会导致对一些行业发展状况产生误判。

第二,在大数据供给层面存在算法调整问题。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法,让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但在数据生成机制方面却导致不同时期的数据之间可能不可比。如果数据分析团队和算法演化团队没有充分沟通,数据分析团队不清楚知晓算法调整对数据生成机制的影响,就会误将数据变动解读为市场真实变动而带来误判。

第三,数据生成动机可能会随时间推移而发生变化。前文已述,大数据不再是由政府特定部门或者特定机构主持收集,而是经济社会主体运营中产生的副产品,因此大数据的采集就和该主体自身的利益诉求密切相关。以社交媒体大数据为例,对这类数据的分析常常建立在一个假定之上,即人们在社交媒体分享的信息都是真实的、自发的、不会被自己发言的平台所操纵。如果说过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也单纯是为了更好地服务消费者,那么随着大数据时代的推进,“数据为王”的特征就会越来越明显,社交媒体会看到除了可以给使用者植入广告以增加收入之外,还可以操纵数据的生成与报告以增加自身的影响力。

技术唯上,忽略大数据分析的现实环境

大数据为我国发展新业态提供了崭新机遇,但也存在一味强调大数据的技术优势,而忽略大数据技术和各地区经济社会发展实际状况相结合时可能产生问题的现象。例如,金融科技发展过程中,大数据征信获得了长足进展。基于大数据技术,车抵贷有了新的执行方式。相较于过去抵押车之后车就要放到固定地点不能移动的安排,现在由于车辆都安装了GPS,贷款平台可以实时监控车辆去向,因此抵押人办完抵押手续之后仍然可以将车开走,一旦无法还款,平台公司上门拖车即可。但是,在2018年以来开展的扫黑除恶专项整治活动中,借款人不还款、而出借方平台因为担心被当作恶意催收,也不能按照GPS上门收车的现象开始出现。又如,大数据分析技术的发展让网约车成为人们日常出行的新选择。但2019年12月Uber的首份安全报告显示,2018年共发生超过3000起性侵案件,而纽约警察局记录的数据显示,2018年交通系统发生的这类案件为533起。上述两例说明,如果没有尊重金融规律(风险较高的人即便可以抵押车也不见得是好的借款人)、没有相应的司法保障而单纯依靠大数据分析的技术力量,那么在开发新业态的同时也可能带来新风险。

防范“大数据自大”的政策建议

第一,加快订立大数据采集和分析方面的法律法规。虽然有《网络安全法》、《统计法》等法律法规,但目前我国在专门针对大数据采集、使用、分享等方面的法律法规还十分欠缺。例如,一些APP存在在使用者不知情的情况下,采集和使用与该APP无关的个人信息的做法,而这些行为目前并没有明确的法律层面的惩戒措施。而欧盟的《通用数据保护条例(General Data Protection Regulations)》、荷兰的《个人数据保护法》(Personal Data Protection Act,“DPA”)都指出,在没有法律依据的情况下处理个人数据是不被允许的。

第二,提高大数据使用的透明度,加强对大数据质量的评估。由于大数据体量大、分析难度高等问题,不仅大数据的收集过程可能是“黑箱”,大数据分析也可能存在过程不透明的现象。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据,也没有解释这类数据是如何搜集的。同时,与透明度相关的是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。这种数据生成和分析的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据分析的透明化,才能在大数据产业发展之初,建立健康的数据文化。

第三,在保护隐私和数据安全的基础上,加大传统数据和大数据的开放共享力度。大数据分析中,单个企业具有颗粒度较高但是代表性不足的数据 “信息孤岛”问题,需要通过不同行业、不同类型大数据和传统数据之间加强开放和共享来解决。目前,一些大数据企业已经开始着手推动数据开放平台方面的工作,这是该方向可喜的变化。同时要看到,在传统数据的收集和开放运用方面,我国还有很大提升空间。只有在对涉及我国基本国情的传统数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。

结语

我国经济已由高速增长阶段转向高质量发展阶段,大数据已经成为数字经济发展的关键要素。如果忽略数据生成机构可能存在的行为动机、大数据相关技术使用的现实国情、大数据和传统数据的互相配合和交叉验证,那么大数据分析就有可能落入存在严重偏差的陷阱。因此在政策导向上,需要尽快推动对大数据采集和使用的法律法规建设,同时推动大数据开放共享、大数据和传统数据的研究与合作,使大数据与传统数据互为补充、相得益彰,共同助力我国经济的高质量发展。

【本文作者为北京大学国家发展研究院教授】

参考文献

[1]胥爱欢: 《互联网金融创新挑战:大数据、跨界经营与权利异化》,《西南金融》,2016年第6期。

责编:司文君 / 周素丽

声明:本文为《国家治理》周刊原创内容,任何单位或个人转载请回复国家治理周刊微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。

责任编辑:贺胜兰