美国启动人工智能风险评估机制 ——简析美国家标准和技术委员会“人工智能风险和影响评估”计划

近日,美国国家标准和技术委员会(NIST)发布“人工智能风险和影响评估”计划(ARIA),标志着美国人工智能风险评估工作机制进入启动阶段。

本文结合学习理解,对美国人工智能政策的发展脉络、ARIA的主要内容及影响进行简要分析。

一、脉络特点:监管与创新“两手抓”

从美国发布的人工智能相关政策法规来看,体现出较为明显的创新发展与安全监管并重的特点。

一是注重引导鼓励创新。近两年来,美国陆续发布了一系列创新政策法规,注重对人工智能技术创新的鼓励和引导。如:《国家人工智能研发战略计划》(美国白宫,2023年5月23日)、《人工智能政策路线图》(美国参议院人工智能工作组,2024年5月15日)等。

二是注重强化重点监管。美国在人工智能发展的伊始就强调监管保障,持续出台相关政策,为人工智能发展保驾护航并加以必要的规范和约束,如:《人工智能权利法案蓝图》(美国白宫,2022年10月4日)《人工智能风险管理框架V1.0》(美国国家标准技术研究所,2023年1月26日)《关于安全、可靠和值得信赖的人工智能开发和使用的行政命令》(美国白宫,2023年10月30日)《联邦人工智能风险管理法案》(美国参议院,2023年11月2日)等。伴随生成式人工智能的快速发展,美国还加快了人工智能监管与治理领域的立法进程,提出了多项立法提案,如:《两党人工智能立法框架》《2023年人工智能研究、创新和问责法案》等。这些政策、法规基本勾画提出了美国人工智能监管的原则框架。

表1 美国近年部分人工智能政策法规

发布日期 政策名称 发布机构 内容概括
2022年10月4日 《人工智能权利法案蓝图》 美国白宫 概述了指导人工智能系统设计、使用和部署的五项原则。
2023年1月26日 《人工智能风险管理框架V1.0》 美国国家标准技术研究所 提供了一个灵活的、结构化的和可测量的流程,旨在促进负责任地设计、开发、部署和使用人工智能系统。
2023年5月23日 《国家人工智能研发战略计划》 美国白宫 新增第9项战略“为人工智能研究的国际合作建立有原则和可协调的方法”,强调国际合作。
2023年9月12日 《两党人工智能立法框架》 美国参议院 聚焦许可制、问责制、透明度保障等监管制度和机制的建立,强化AI安全保护规定。
2023年10月30日 《关于安全、可靠和值得信赖的人工智能开发和使用的行政命令》 美国白宫 明确了美国人工智能未来的发展方向,提出了全面的人工智能监管原则。
2023年11月2日 《联邦人工智能风险管理法案》 美国参议院 要求联邦机构将人工智能框架纳入管理工作,进一步加强人工智能风险管理的立法约束。
2023年11月15日 《2023年人工智能研究、创新和问责法案》 美国参议院 提出开放数据政策的修订、人工智能紧急行为检测标准等鼓励创新的立法举措及建立问责制、风险管理评估协议等加强监管的立法举措。
2024年5月15日 《人工智能政策路线图》 美国参议院 详细介绍了与人工智能相关的优先政策,包括出口管制、增加拨款等。

(来源:绿盟科技整理)

二、健全机制:评估内容、推进机制

美国NIST此次推出的“人工智能风险和影响评估”计划(ARIA),主要是对《关于安全、可靠和可信的人工智能的总统行政命令》相关要求(“发起一项举措,制定指导和建议评估和审核人工智能能力的基准”)的响应。同时,ARIA还对此前发布的《人工智能风险管理框架V1.0》中的风险衡量功能进行了扩展,建立健全了对人工智能安全监管的评估机制。

从评估内容来看。ARIA是NIST开发的一套人工智能风险评估的新方法和指标,主要包括四方面内容。一是确定人工智能风险评估的方法和指标,ARIA建立了模型测试、红队测试、现场测试3个不同评估级别,并确定了不同的方法和指标(表2)。二是强化评估的可信性(稳定性、可解释性、隐私保护等),包括收集和分析日志、签署参与协议以保护受试者等。三是建立特定的风险识别跟踪机制,包括开发代理任务、推出“测试包”(TPs)等。四是定期评估和反馈评估实施的成效,包括发布“ARIA试点评估报告”等。

从推进机制来看。ARIA评估的组织实施工作,具体由NIST的信息技术实验室(ITL)负责开展。而在技术支持方面,主要由美国人工智能安全研究所(AISI)保障,包括:提供自动能力评估、专家红队测试等技术协助,开发ARIA评估的应用规模、方法和最佳实践等。

从评估结果的应用来看。ARIA评估结果将公开发布,并且基于评估结果,预计将形成包括评估政策、工具、方法和指标在内的系列成果。这些成果一方面将用于评估目标系统的安全性,另一方面还将成为人工智能技术或系统的设计、开发、部署或使用时的重要依据。

表2 美国ARIA评估方法简表

评估级别 评估方法 评估量化分析
模型测试 对测试包定义的任务和系统行为范围进行评估测试 查询-响应交互的百分比和/或用户会话的百分比
红队测试 收集每个应用程序尽可能多的违规结果、模型护栏和安全机制进行压力测试 对抗性交互的分析结果
现场测试 人类参与者在测试或控制条件下跨多个会话与真实设置中的AI应用程序进行交互 指标为评估员关于LLM操作的输入、现场测试人员的反应,应用感知与应用实际输出的一致程度

(来源:绿盟科技根据“人工智能风险和影响评估”计划整理)

三、影响思考

目前,我国正在建立健全对人工智能安全的监管机制,并已出台多部法规政策。主要包括《生成式人工智能服务管理暂行办法》、《网络安全技术 生成式人工智能服务安全基本要求》等。

现有政策法规对于人工智能风险评估的规定,可主要归为两类。一是对于“具有舆论属性或者社会动员能力的”生成式人工智能服务,目前已经建立了由《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》和《互联网信息服务算法推荐管理规定》共同构建的评估和备案管理机制。二是对于其他类别的生成式人工智能服务,虽也纳入了监督管理的范畴,但对于如何具体组织实施相关评估,尚缺乏相应的专门制度规范。

美国ARIA机制的推出,在机制设置、结果应用等方面,对于我国建立健全人工智能风险管理和评估制度,或具有一定的参考价值。

Spread the word. Share this post!

Meet The Author