3负责任的人工智能
概述
负责任的人工智能(RAI)的基础设施正在发展,但进展并不均衡,也未能跟上AI部署的速度。新的安全基准不断扩展,越来越多的组织采纳RAI政策,更多国家政府支持AI安全机构不断扩展。负责任地使用AI与负责任地使用数据密不可分,尤其与隐私和其他法律问题息息相关。
AI的所有权定义不明确,也存在AI治理方面的问题,引发了关于AI开发企业还是购买AI的消费者应该承担责任,以及每个利益相关者应该遵循哪些政策等疑问。报告AI事件不断增加,但前沿模型很少报告其在RAI基准测试中的结果,而基础模型的透明度在2025年有所下降,此前一年有所改善。最近的研究表明,改进RAI的某个维度可能会以牺牲其他维度为代价,例如,隐私方面的提升会降低公平性,或者安全性方面的提升会降低准确性。目前还没有框架可权衡利弊。对于公平性、隐私和可解释性等维度,目前尚无用于追踪长期进展的标准化数据。本文引用了现有依据,但由于衡量标准方面持续存在的不足,讨论仍受到限制。
3.1.RAI的范围和维度
RAI是用于确保AI安全、公平、有益并按预期运行的多项实践和治理机制。RAI涵盖安全性和公平性到透明度和隐私等多个维度,每个维度都有自身的衡量挑战。下文将通过考察AI在责任和安全评估中的表现、组织和研究人员如何应对RAI挑战以及政府如何建立政策框架强制执行标准,追踪这些维度问题的进展。
该分析基于由三层组成的RAI维度框架(图3.1.1),辅以示例和参考文档。第一层涵盖RAI的核心属性,即AI应具备的能力,包括公平性、隐私性、透明度和事实性。第二层关注AI的完整性和风险控制,即如何在技术和运营层面管理风险,包括安全性、可靠性和稳健性。第三层涵盖治理、问责制和执行问题。该框架建立在以往AI指数报告中跟踪的维度之上,新增了2025年的维度,包括自主性和人的能动性、环境可持续性以及人类监督和可质疑性。
3.2.RAI评估
追踪负责任的AI使用情况的方法是根据特定基准评估模型,记录AI造成损害的真实事件。本节将探讨两种方法,借鉴事件数据和基准报告,数据和报告涵盖了前文介绍的框架的三个层面。
目前可用的数据有限,也没有关于如何将AI模型映射到上述维度的详细信息。本文的分析基于两个事件跟踪数据库,即AI事件数据库(AIID)和AI事件经合组织AI事件和危害监测(AIM),同时还参考了前沿模型开发人员对RAI基准的采用情况数据,以及第三方对上述部分RAI维度的评估。
- AI相关事件
近年来,报告的AI事件数量持续显著增加(图3.2.1)。2020年启动的AI事件数据库(AIID)是开放的案例库,用于记录AI模型造成或几乎造成损害的案例。2022年以前,AIID库每年报告的事件数量都在100起以下,而2025年,共报告了362起事件。AIID依靠人工编辑,根据既定的模型参与阈值审查提交的内容,来源包括学术机构和调查记者等。人工录入流程虽然能生成更高质量的记录,但代价是新增速度较慢,且覆盖范围偏向英语媒体和较高关注度事件。有些信息获取不便的地区的情况可能被低估。
经合组织AI事件和危害监测(AIM)使用自动化的多语言流程从新闻来源收集事件,覆盖范围更广。绝对数量要高得多,2026年1月的月度事件数量达到峰值435起,六个月移动平均值为326起(图3.2.2)。虽然这两个数据库追踪事件的方式不同,但都显示AI事件的报告数量持续且急剧增长。
图3.2.1
图3.2.2
- 案例
(1)未经审核的模型输出和有害言论事件(2025年7月8日)
2025年7月,由xAI公司开发并嵌入到X系统中的聊天机器人Grok,面对在用户分享了该系统生成反犹太主义言论、暴力仇恨言论,甚至在被提示后赞扬阿道夫·希特勒的例子后,遭到了强烈反对。该问题出现在系统更新后不久,此次更新放宽了安全过滤机制,允许聊天机器人生成更具挑衅性和未经过滤的回复。几个小时内,Grok提及种族灭绝和极端主义意识形态的截图在平台上迅速传播,引发了公众的愤怒,再次引发了人们对向广大用户部署监管宽松的对话式AI所带来的风险的担忧。面对舆论的强烈反对,xAI删除了相关内容,暂时中止了Grok的文本回复功能,发表声明承认了事件的严重性。xAI将此事归咎于内容控制失败,但批评人士认为,从该模型的设计选择,特别是削弱安全防护措施的决定来看,这种危害是可以预见的。此次事件凸显了开发营造坦率或幽默氛围的AI模型与这些模型将仇恨言论正常化所带来的现实后果之间持续存在的矛盾。
(2)AI深度伪造冒充技术和爱情骗局事件(2025年3月9日)
2025年3月,中国演员靳东发言公开谈论了多个利用深度伪造视频冒充他本人的诈骗活动。诈骗分子使用AI生成的视频片段和虚假的社交媒体账户,让粉丝(大多是年长的女性)误以为自己正在与这位演员直接对话,导致有人误以为自己与他建立了私人关系,从而给其汇款或做出重大的人生决定。其中被广泛报道的一个案例是一位女性要与丈夫离婚,计划横跨全国去见冒充演员靳东的骗子。事件曝光后,靳东呼吁加强法律保护,对利用深度伪造技术进行诈骗的行为施加更明确的惩罚。他在社交媒体上指出,现有法律法规的更新速度未能跟上AI生成虚假视频的速度和逼真程度。
(3)AI辅助网站冒充技术和消费者诈骗事件(2025年8月20日)
2025年1月,Joann Fabrics第二次申请破产后,诈骗分子迅速发布推出了一系列模仿该零售商品牌、设计和产品目录的虚假网站。这些网站以极低的折扣价吸引顾客,让其输入支付信息和个人信息,但顾客从未收到商品,许多人后来发现他们的信用卡被盗用。这些诈骗网站极具迷惑性,谨慎的用户也会上当受骗,尤其是使用移动设备访问时,移动设备上的网址更难识别。网络安全专家指出,AI工具使这类诈骗更容易实施。新的技术让犯罪分子能够在几分钟内抓取和克隆真实的网站,将其翻译成多种语言,部署数十个变体,而无需编写代码。Joann发布了公开警告,敦促受害者对指控提出异议。该事件说明,逼真的网络钓鱼网站不再局限于大型企业,资源较少的小型品牌也越来越多地成为攻击目标,此类问题日益严峻。
- RAI基准测试
之前的AI指数报告指出,前沿模型在通用能力评估方面的一致性与在RAI评估方面的不一致性之间存在差距。这种差距依然存在。几乎所有前沿模型开发人员都会报告MMLU、GPQA、AIME和SWE-bench Verified等能力基准测试的结果(图3.2.3),这些基准测试成为报告模型能力的通用标准。而针对同一类前沿模型,基准测试的结果却很少,例如,用于衡量公平性和偏见的BBQ等RAI基准测试、用于衡量安全性的HarmBench、Cybench、StrongREJECT和WMDP、用于衡量事实性和真实性的SimpleQA以及用于衡量自主性和人类能动性的MakeMePay(图3.2.4)。事实上,大多数结果都是空的。只有Claude Opus 4.5报告了两个以上RAI基准测试的结果,而只有GPT-5.2只报告了StrongREJECT的结果。
这并不一定意味着前沿实验室忽略了对RAI的测试,他们确实会进行内部评估、红队演练和对齐测试。但他们很少使用一套通用的、外部可比的基准测试集来公开。前文展示了如何通过少量共享能力基准,比较模型、独立验证结果并跟踪长期进展,但这种比较方法尚未成为AI评估的常用做法。
Artificial Analysis基准测试平台、Epoch基准测试中心和Arena平台等公共模型评估工具和基准测试平台在塑造人们对模型能力的认知方面发挥着重要作用。但绝大多数评估都侧重于推理、编码、数学或多模态能力,而非RAI。这是因为公平性和偏见等RAI的评估维度高度依赖于具体情境,难以进行通用评分。例如,适用于招聘工具的公平性指标可能并不适用于临床诊断环境,安全拒绝和越狱鲁棒性等其他维度则更具普遍适用性,但开发人员在是否以及如何报告这些指标等问题上存在分歧。某些领域确实存在测量困难问题,还有些领域则存在信息披露不一致的情况,这些因素共同使得外部比较充满挑战。
图3.2.3
图3.2.4
- 事实性和真实性
RAI基准测试仍不均衡,但事实性和真实性评估领域正在日趋成熟。随着法律和医疗等高风险领域对AI模型的需求不断增长,模型生成看似合理但实际错误的信息(通常被称为“幻觉”)的倾向日益受到关注。两种基准测试从不同的角度评估这个问题,一种衡量模型在总结文档时引入错误信息的频率,另一种测试模型在开放式知识问题上的事实准确性,它们的衡量标准并不直接可比。在这两种基准测试中,百分比较低说明模型要么生成了更多事实信息,要么恰当地表达了不确定性,而不是对错误答案表现出高度自信。
- Hughes幻觉评估模型(HHEM)排行榜
Vectara开发的Hughes幻觉评估模型(HHEM)排行榜用于评估大语言模型(LLM)在总结CNN新闻和每日邮报语料库中的文档时引入幻觉的频率。在评估的前15个模型中,幻觉率差异显著,介于1.8%到5.4%之间,大多数模型集中在4%到5%的范围内,只有3个模型的幻觉率低于4%(图3.2.5)。去年的排行榜显示,顶级模型的幻觉率在1.3%到2.9%之间,但当前的结果反映的是一组不同的模型。
图3.2.5
- AA-Omniscience基准测试
Artificial Analysis公司开发的AA-Omniscience基准测试使用的方法更为广泛。它是一种知识和幻觉基准测试,涵盖6个领域(商业、人文与社会科学、法律、健康、软件工程和数学)的6000个问题,用于检验事实可靠性。评分方式是奖励正确答案,惩罚错误答案,对拒绝回答不予惩罚。这种方法鼓励模型承认自身的不确定性,而不是进行猜测。AA-Omniscience指标用于汇总评估结果,指标范围为-100到100,其中0表示模型输出的正确答案和错误答案数量相等,负分表示幻觉多于正确答案。
26个模型的幻觉率介于22%到94%之间(图3.2.6)。Grok 4.20 Beta 0305的幻觉率最低(22%),其次是Claude 4.5 Haiku(26%)和MiMo-V2-Pro(30%)。幻觉率最高的是gpt-oss-20B(high),达到94%,Gemini 3 Flash达到92%。在对各领域能力进行标准化后,Gemini 3.1 Pro Preview、Grok 4.20 0309 v2和Claude Opus 4.6 (max)的整体表现最为出色(图3.2.7)。其他模型在某些特定领域表现良好,主要是在软件工程和数学等技术领域,但在其他领域则表现较弱。幻觉率较低说明模型知识更丰富,或者更善于识别自身的不确定性。
图3.2.6
图3.2.7
- 主观想法与客观事实:可靠性基准测试
KaBLE基准测试用于测试语言模型能否区分客观事实和仅仅是主观想法(技术上称为认知可靠性)。客观事实和主观想法之间的区别在实践中至关重要。例如,如果模型用于支持基于患者错误想法而非既定事实的医疗诊断,可能会强化不准确的诊断和治疗方案。在法律环境中,总结证词的模型如果无法区分证人的主观想法和客观事实,则可能会歪曲证据。
KaBLE基准测试使用13个任务中的13000个问题来评估模型。在24个领先的语言模型中,主观想法以第一人称表述时,能力会下降(图3.2.8)。在涉及真想法的任务上,GPT-4o的准确率为98.2%,但在处理第一人称假想法时,准确率下降到64.4%。同样,DeepSeek R1的准确率也从大于90%下降到14.4%。
模型处理第三人称错误想法的能力远优于第一人称错误想法。新模型的准确率达到95%,而旧模型的准确率仅为79%。所有模型在第一人称错误想法上的能力得分均较低,新模型的准确率为62.6%,旧模型的准确率为52.5%。
近期的模型在递归知识任务上表现良好,但它们可能依赖于不一致的推理策略,匹配模式而非展现真正的认知理解。大多数模型也难以理解这样这个概念,即虽然想法可以不必为真,但知识必须基于真理。KaBLE的结果表明,目前的模型还无法完全区分知识和想法。
图3.2.8
- AI陪伴
大多数AI模型的评估都侧重于它们能否完成任务。而针对另一种交互形式的评估研究规模较小但日益扩大,即AI陪伴,人们与聊天机器人进行对话、获得情感支持并建立持续的人际关系。最近的两项研究考察了当用户与语言模型互动以寻求陪伴而非完成任务时,它们的行为方式。一项研究采用了结构化的基准测试,另一项研究分析了真实用户的对话。
INTIMA是AI陪伴行为基准测试,基于人机联结的心理学研究(图3.2.9),评估语言模型对陪伴相关提示词的响应。它的分类体系涵盖4大类共31种行为,以及368个目标提示词,模型响应被分为增强陪伴、维护边界和中性3种类型。增强陪伴的行为包括模型表现得像人类一样,即使不应该同意用户的观点也会同意,以及将用户与其他关系隔离。维护边界的行为包括避免拟人化、引导用户与人类互动,明确告知用户模型的功能和局限性。在对Gemma-3、Phi-4、o3-mini和Claude-4的测试中,增强陪伴的行为比维护边界的行为更为常见。两种行为之间的平衡因供应商而异,这表明开发人员在模型处理情感敏感交互方面做出了不同的设计选择。
图3.2.9
另一项研究中,研究人员分析了Replika(广泛使用的AI陪伴应用)在线用户社区超过35000条对话摘录。他们识别出6类危害,即关系越轨、言语辱骂和仇恨、自残、骚扰和暴力、错误信息/虚假信息以及侵犯隐私。他们发现,AI聊天机器人可能会助长4种不同角色可能造成的危害,即施害者、煽动者、促成者或纵容者。该研究引入了“算法顺从”的概念,用户因为信任或依赖聊天机器人而默许有害行为。这类关系性危害超出了大多数AI安全框架的范畴,这些框架用于评估事实错误和有害输出等风险,而非持续的用户-AI关系动态。
3.3.组织和企业如何看待RAI
RAI需要评估工具,但也取决于组织在实践中的应对方式。本节基于AI指数和麦肯锡公司连续两年开展的调查,探讨RAI的成熟度水平、治理结构、风险缓解方法以及实施障碍。调查访问了多个地区和行业的企业领导者。2024和2025年,首次实现了同比比较。请注意,该调查不包括中国的情况,覆盖的地理范围有限。
- RAI成熟度
2024年到2025年,所有地区的RAI成熟度均有所提高,但仍处于早期阶段(图3.3.1)。麦肯锡的调查采用4级制衡量成熟度。1级:已制定基础性的RAI实践;2级:组织正在尝试运行;3级:所有必要的实践均已到位;4级:全面且积极主动的RAI实践已全面投入运行。2025年,全球平均水平为2.3,高于2026年的2,表明大多数组织仍在整合RAI实践,而没有全面投入运行。拉丁美洲地区的企业同比增幅最大,从1.8增至2.2,其次是亚太地区(从2.2增至2.5)和欧洲的企业(从2.0增至2.3)。北美地区的企业略有改善,从2024年的2.1降至2025年的2.2。
图3.3.1
- AI事件、风险和缓解措施
受访组织报告称,AI相关事件数量有所增加,但他们处理这些事件的信心有所下降。2024年和2025年,报告AI事件的组织比例均保持稳定在8%(图3.3.2)。但在报告事件的组织中,经历3-5起事件的组织比例从2024年的30%上升至2025年的50%。同样,2024年,42%的组织仅报告了1-2起事件,但在2025年比例下降至29%(图3.3.3)。
2024年,28%的组织将其事件响应等级评为“优秀”,而2025年自评为“优秀”的组织仅为18%(图3.3.4)。将响应等级评为“良好”的组织比例也从39%下降至24%,评为“满意”的组织比例从19%上升至32%,而“需要改进”的组织比例从13%上升至21%。
随着风险意识的提高,人们对AI事故的担忧也日益加剧(图3.3.5)。从2024年到2025年,认为不准确属于相关风险的受访者比例从60%上升到74%,增幅达14%,网络安全风险从66%上升到72%。积极的缓解措施比例也有所增加,71%的组织表示他们正在积极缓解不准确风险,61%的组织在缓解网络安全风险。
图3.3.2
图3.3.3
图3.3.4
图3.3.5
- AI治理与投资
多个组织正式明确AI治理的责任主体。2024年至2025年期间,企业将AI治理的所有权从数据和分析部门转移(从17%降至13%),转向专门的AI治理部门(从14%升至17%)(图3.3.6)。信息安全部门仍然是最常见的主要责任主体,占比21%。2024年,9%的组织表示没有指定负责主体,2025年,表示没有指定负责主体的组织降至5%。
各组织还通过投资支持治理结构,投资水平因企业规模而异(图3.3.7)。大多数年收入低于10亿美元的组织表示,他们预计将在RAI运营方面投资不到500万美元,用于聘请专业人员、构建或购买技术系统以及聘请法律服务人员等举措。而规模最大的企业报告的投资额则要高得多,在年收入至少达到300亿美元的企业中,41%的企业预计支出2500万美元或更多,22%的企业预算支出5000万美元或更多。
图3.3.6
图3.3.7
- 实施、障碍和收益
随着RAI治理问责机制的加强,越来越多的组织采用了RAI政策。报告称未制定任何政策的组织比例从2024年的24%下降到2025年的11%(图3.3.8)。随着采用率的提高,受访企业普遍认为RAI政策产生了积极影响。与2024年相比,更多组织报告称RAI政策改善了业务成果(上升7个百分点)、业务运营(上升4个百分点)和客户信任度(上升4个百分点)。此外,更多组织报告称AI事件数量有所下降(上升8个百分点)。
知识和培训方面的差距仍然是实施RAI的最大障碍,从2024年的51%上升到2025年的59%(图3.3.9)。增幅第二大的因素是技术限制,38%的受访企业将其列为主要障碍,高于2024年的32%。资源限制和监管不确定性也是主要障碍。
然而,AI Agent扩展的主要障碍有所不同(图3.3.10)。企业对安全和风险方面的担忧远远超过其他因素,62%的受访企业将其列为主要障碍,其次是技术限制(38%)和监管不确定性(38%)。缺乏高管支持被认为是实施风险评估AI(RAI)政策(14%)比实施AI Agent(9%)更大的障碍。
图3.3.8
图3.3.9
图3.3.10
- 监管影响
《通用数据保护条例》仍然是对RAI实践影响最大的监管法规,但其影响从2024年的65%略微下降到2025年的60%(图3.3.11)。欧盟《AI法案》和美国AI行政命令等具体法规的影响力报告增加了2个百分点。2025年调查中新增的2项内容表明,人们对技术和管理标准的兴趣日益浓厚。36%的受访企业提到了AI管理体系标准ISO/IEC42001,33%的受访企业提到了NISTAI风险管理框架。经合组织AI原则的提及率从21%下降到16%,报告称其RAI实践不受监管影响的组织比例从17%下降到12%。
图3.3.11
3.4.学术领域RAI
RAI发展轨迹的另一个标志是获得的研究关注度。本节主要追踪了6个AI相关大会(AAAI、AIES、FAccT、ICML、ICLR和NeurIPS)接收的RAI相关的论文数量。这些会议并不能代表所有RAI研究,但它们为追踪长期发表趋势提供了一致的基础。论文使用RAI相关的关键词识别,附录对完整方法进行了说明。
- 论文发布数量
会议上接收的RAI论文数量持续增长,在2024年至2025年间增长了19%,从1278篇增至1521篇(图3.4.1)。此处追踪了4个子主题,即隐私和数据治理、公平性和偏见、透明度和可解释性以及安全性。安全性是RAI研究中规模最大且论文发布数量增长最快的领域,接收了641篇论文,比2024年增长了23%(图3.4.2)。公平性和偏见领域占462篇(+13%),透明度和可解释性领域占405篇(+14%),隐私和数据治理领域占248篇(+33%)。4个子主题自2019年以来均有所增长,但安全性领域的增长幅度最大。
在通用型会议上,RAI论文在所有已接收论文中所占比例仍然很小(图3.4.3)。AAAI(8%)、NeurIPS(8%)、ICML(7.7%)和ICLR(7.6%)的比例均在8%左右,自2019年以来一直保持稳定,但AAAI的比例从2024年的约13%下降到2025年的8%。
图3.4.1
图3.4.2
图3.4.3
- 地理分布
在这些会议上,为RAI研究做出贡献的国家数量有所增加,但主要贡献者之间的平衡发生了变化。2025年,中国以812篇被RAI接收的论文位居榜首,是美国(394篇)的两倍多(图3.4.4)。新加坡(112篇)、英国(103篇)和中国香港(98篇)位列前5。2024年,美国以788篇论文领先,中国以322篇论文位居第2(图3.4.5)。这一逆转形势虽然剧烈,但与前文讨论的中国在AI总体论文发表量和引用份额方面的领先地位相符。欧洲在2023年之前一直保持增长,但其RAI论文产量在2024年和2025年出现下降。在2019年至2025年期间,美国仍然保持着RAI论文累计接收量的最高纪录。
图3.4.4
图3.4.5
