以ChatGPT为代表的生成式人工智能掀起新一轮热潮。与此同时,数据泄露、隐私窃取、算法歧视等数字安全风险不断显现,迫切需要寻找共享与监管并重的动态平衡范式,守住人工智能时代的数字安全底线。
纵观全球,中国、美国和欧盟作为探索数字安全和数字治理的先行者,无论是技术创新还是立法规范都走在世界前列,同时也存在差异。在相同点方面,均高度重视算法治理,将算法安全嵌套在数据安全中,实行数据与算法协同治理;在差异性方面,虽然同样强调个人隐私安全,美国以鼓励创新为核心,更注重数据自由流动,倾向于以行业自律进行治理。欧盟注重个人隐私保护和立法,探索和引入人工智能监管沙盒机制,并发布首部人工智能监管法案。这些经验做法,对我国数字安全治理具有一定参考价值。
我国加快推动人工智能发展,需形成政府、企业、社会组织和个人合力,在协同数据和算法治理、保障生成式人工智能安全等方面实现重点突破。
第一,启动国家人工智能数据和算法工程。建立安全标准,分门别类对数据和算法进行管理,提升数据互操作性以及算法透明度,改变过去个人或企业单打独斗的局面。
自动检索风险指标。开发针对人工智能应用网络的早期预警系统,对网络资源进行常规监控和过滤,对于不符合政策要求的危险因素、劣质数据和不良信息,及时清除或屏蔽。通过该预警系统自动检索关键风险指标,及时补救,防止再出现类似安全漏洞。
甄别人工智能生成内容。从源头上,为人工智能生成内容打上标记。深度合成服务提供者提供深度合成服务,可能导致公众混淆或者误认的,应在生成或编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。
加大人工智能生成内容检测工具开发和优化。目前针对人工智能生成的图像、文本等已出现相应检测工具,用于区分人工智能生成的内容和人类创造的内容,但准确率不高。亟需加大对数据、算法、模型的研究,开发精准的生成式人工智能检测工具,真正实现“以AI测AI”。
加强人工智能数据共享。数据、算法、算力是驱动人工智能发展的“三驾马车”,其中数据是人工智能发展的养料,例如仅GPT-4的训练数据集就包含约13万亿个词元。如果缺乏足够的数据,人工智能发展无异于“无米之炊”。
推动中文数据集共享。由于语言特点、获取成本、开源程度以及数据集质量要求等原因,相较于英文数据,目前中文数据集规模较小。基于中文的人工智能开发,可通过国家人工智能数据工程汇总高质量中文数据集,并促进数据分类分级有序共享,使安全性和服务质量得到大幅提升。
第二,加强生成式人工智能监管。推进全球沟通和探讨,通过网络数据安全管理、个人信息保护、数据审计等法律法规进一步完善生成式人工智能监管。统筹数据安全与算法治理,针对金融、医疗等不同行业领域以及算法歧视、算法黑箱等问题,开展多层次和精细化监管。开展多模态智能分析,在大模型领域引入文本、图像、语音等,在训练和应用过程中细化对不同元素的监管,通过功能模块设计,及时发现问题并防范风险。
切实保障数据安全。使用生成式人工智能产品过程中,也在同步收集用户数据和信息,可能引发潜在隐私安全问题。对此,应扩大安全使用指南宣传。例如,不主动分享敏感信息、关闭聊天记录等,基于专门的云服务运行,从访问控制、数据加密、网络连接等方面加强保护。对于数据敏感度较高的用户,通过敏感信息过滤一体机进行识别筛选,可有效避免大模型产品在提供服务时产生不可控信息。
构建特定知识库。基于特定知识库提供人工智能服务,可在一定程度上避免虚假错误信息,提升准确性和安全性。建议借助大模型训练推理一体机,通过本地化训练和推理,在保护用户数据隐私的前提下构建特定知识库。
第三,在国际层面,积极与联合国及主要国家沟通交流,达成全球规避人工智能风险共识,推动对所有大型人工智能科研项目实施备案和风险评估制度。在国家层面,组织专家团队潜心进行人工智能风险评估和研究相关立法,加强网络安全关键技术研发,加快人工智能安全技术创新,提升网络安全产业综合竞争力。
(作者系中国大数据应用联盟人工智能专家委员会主任)