伴随人工智能技术的广泛应用和持续发展,其所引发的数据安全风险日益加重。通过总结人工智能应用过程中面临的数据泄露、数据过度收集、模型算法透明度不足以及数据易遭受攻击等安全风险,梳理和分析美国、英国、欧盟和新加坡等国家和地区在数据安全规制活动中的实践经验,提出加强顶层设计、强化实践指引和加快技术创新等全方位、多元化的发展路径,进一步提升人工智能数据安全防护能力。
人工智能指的是计算代理的开发,这些代理可以执行与人类智能相关的任务,包括语音识别、视觉感知和一般问题解决,其发展高度依赖数据的流通和使用,例如在数据收集、数据准备、模型开发和部署等重要环节均需要利用数据进行训练、测试以及评估等。伴随自然语言处理、搜索引擎、智能生成应用等人工智能技术和产品在日常生活中的深度融合与广泛应用,数据使用规模增长,流动性增强,暴露面增多,由此带来的数据泄露、数据被盗用或数据投毒等安全风险值得进一步关注。目前,美国、英国、欧盟、新加坡等国家和地区已通过发布国家战略、行政命令、规范指南和研究报告等手段,对人工智能技术和产品在实际应用中涉及的数据安全问题进行规制,以控制和减轻人工智能技术的应用所带来的数据安全风险。 本文旨在探讨人工智能面临的数据安全风险,梳理和分析国外人工智能数据安全规制现状并有针对性地提出我国人工智能的发展路径。
人工智能技术自身的脆弱性和复杂性等特点容易造成数据泄露或被盗用。一方面,深度学习、大模型等人工智能技术本身仍处在发展阶段,容易出现重要结构丢失等问题,引发数据泄露。例如,2023年12月,DeepMind的研究人员联合美国华盛顿大学、康奈尔大学等高校研究人员利用分歧攻击等方法,发现了ChatGPT的数据泄露漏洞,利用该漏洞可以提取出大约1GB的训练数据。另一方面,人工智能在开发和应用过程中需要大量接入应用程序接口(Application Programming Interface,API),API自身的漏洞和安全隐患以及不同API之间不同的数据安全防护能力和要求进一步提升了数据在收集、流动和处理过程中的安全防护要求,也从侧面加剧了数据泄露和被盗用的风险。
人工智能技术从本质上是一种通过数据驱动的方法,因此允许人工智能系统在日常应用场景中访问、收集和处理个人信息等数据是合理且不可避免的。然而,目前智能音箱、智能摄像头、智能门锁、智能网联汽车等智能设备广泛应用于家庭、交通、办公、娱乐等场所,容易出现相关设备在未经授权或超出授权的情况下收集个人信息、超出业务功能实现所需数据范围收集信息等问题,可能违反个人信息保护相关法律对于数据收集合法、正当、必要和最小化等要求,进而引发识别和暴露数据主体行为的风险,损害数据主体的相关权益。
在没有用户参与的情况下,通过自动化手段使用事实数据或经过推断做出决策的过程被称为自动化决策(Automated Decision Making,ADM),这是人工智能技术应用的重要场景之一。例如,日常购物、新闻和短视频浏览、广告推送等很多活动都涉及到通过特定算法对用户的日常行为、偏好、个人习惯、经济状况等信息进行收集、整合、处理分析、评估和判断,对人们的日常生活乃至社会发展产生了很大的影响。根据大多数国家和地区的数据安全立法和建议,自动化决策应该是透明、可解释、不带有偏见和歧视的,但实际情况却不容乐观。伴随着人工智能技术的不断发展,特别是近十年来深度学习技术、大模型技术等普遍呈现“黑箱”特征,并且通过在网络中使用复杂的非线性关联和连接,算法的复杂化发展造成了目前自动化决策容易缺乏透明性和可解释性,进一步增加了个人隐私泄露的风险和侵犯个人合法权益等问题。
准确性是人工智能系统的核心要求之一。人工智能算法做出的不准确的决策可能会导致有害于用户乃至社会的严重后果。例如,对交通情况的不准确判断可能导致交通拥堵甚至车祸发生;对健康状况的不准确判断可能影响用户的就诊时机。人工智能的决策失误往往是因为训练数据遭受了“投毒”“欺骗”等外部攻击,例如数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差,造成相关数据被伪造或者被篡改,或者潜在攻击者通过向计算模型注入无效数据,利用潜在漏洞破坏计算结果或者引导输出隐私信息等,潜在危害很大。
美国白宫、联邦行政部门、科研机构等多方主体通过发布行政命令、实践指南和研究报告等方式尝试给出解决人工智能数据安全问题的路径,以维护其在人工智能领域的全球领先地位。
2023年10月30日,美国总统拜登签署颁布了《关于安全、可靠、值得信赖地开发和使用人工智能的行政命令》,该命令明确了美国政府对待人工智能的政策法制框。