【公益译文】2026年AI指数报告(六)

3.5.负责任的人工智能政策制定

负责任的人工智能治理取决于各国是否采纳伦理原则,以及是否拥有相应的机构和法规来执行这些原则。联合国教科文组织的准备情况评估方法(RAM)是目前最全面的国际举措,用于衡量各国的准备情况。RAM项目于2022年12月启动,从法律框架、技术基础设施和教育等多个维度评估各国的准备情况,编制国别报告,评估存在的差距。

美国、中国和西欧大部分地区等大多数AI主要开发国家尚未参与评估(图3.5.1)。已完成或开始评估的国家主要集中在拉丁美洲、撒哈拉以南非洲以及南亚和东南亚的部分地区。RAM项目的目的是为处于治理早期阶段的国家提供能力建设工具,这或许可以解释参与模式。AI立法和国家战略通常包含负责任的AI条款。

图3.5.1

  • 全球AI治理参与情况

自2019年以来,AI治理方面的国际合作日益广泛,但参与的深度因国家而异(图3.5.2)。仅有加拿大、法国、德国、意大利和日本五个国家始终支持2019年至2025年间所有重要的全球AI治理倡议。其他国家则根据论坛、重点和时间安排,时而参与时而退出这些峰会,但更重要的是,并非所有国家都能参与这些全球AI治理倡议。首个AI政府间标准是2019年发布的《AI治理框架协议》(IPA)。经合组织AI原则仅限于成员国(主要是高收入国家)和少数伙伴国家。同样,七国集团和二十国集团的讨论也仍然以世界最大经济体为中心。然而,2023年布莱切利峰会和2024年首尔峰会开始邀请更广泛的国家,特别是包括中国,从而使参与者构成更加多元化。2025年AI行动峰会 在法国举行的会议标志着又一个转折点,汇聚了100多个国家以及民间社会组织和非政府组织,议程优先考虑全球南方国家的需求和环境可持续性,共有64名参与者。最终形成的《包容性和可持续AI声明》得到了包括非洲联盟委员会和欧盟在内的各方支持。值得注意的是,美国和英国均拒绝签署最终声明。英国方面认为该声明缺乏对国家安全的重视,而美国的决定则反映出其转向更加放松管制、创新优先的方针。随着这些治理论坛的参与日益包容和实质性,就合作条款达成共识也变得越来越困难。

图3.5.2

3.6.数据治理与隐私

RAI实践在各国发展并不均衡。本节将评估隐私和数据治理方面的差异,参考RAI全球指数(GIRAI)。GIRAI基准数据集涵盖138个国家,由138位各国研究人员于2023年11月至2024年2月期间完成的包含1862个问题的专家调查构建而成,经过了质量审核。该数据集根据政府框架、政府行动和角色等主题领域,以0到100的等级对各国进行评分。

民间社会和倡导组织的意见。然而,需要注意的是,低分并不一定意味着国家忽视了某个方面。在许多情况下,低分反映的是AI部署和普及的早期阶段,或是该国在制定AI特定框架方面的制度能力有限。

  • 数据保护与隐私

隐私与数据保护维度隐私与数据保护维度GIRAI评分考察各国是否制定了相关法律来规范AI系统中个人数据的收集、使用和共享方式,以及这些法律是否得到有权执行的监管机构的支持。

各国得分差异很大,在受访国家中,GIRAI得分从接近零到超过80分不等(图3.6.1)。澳大利亚和欧洲部分地区得分最高,而非洲和中东部分地区则缺乏专门的数据保护立法。联合国贸发会议的一份补充地图证实,大多数国家目前都已制定某种形式的数据保护立法,但少数国家(主要集中在非洲和亚洲部分地区)仍处于草案阶段或根本没有立法(图3.6.2)。

图3.6.1

图3.6.2

3.7.公平性和偏见

公平性和偏见是负责任的AI中最难衡量的维度之一,部分原因是公平的定义很大程度上取决于具体情况。GIRAI分别从偏见和不公平歧视、性别平等以及文化和语言多样性等方面对各国进行评分。

  • 偏见和不公平歧视

隐私与数据保护维度偏见和不公平歧视GIRAI评分的维度评估各国是否采取了明确的措施来预防和减轻AI在设计、开发和部署过程中可能造成的歧视性后果。它旨在解决因数据缺乏代表性、设计缺陷或根深蒂固的社会不平等而产生的算法偏见,这些偏见无论出于何种目的,都可能对边缘群体造成伤害。它考察各国政府是否已制定法律、设立监督机构和执法机制,以及民间社会组织是否在独立开展工作来监测和解决偏见问题。

各国在此维度上的GIRAI得分普遍较低(图3.7.1)。美国和加拿大得分最高,澳大利亚、欧洲部分地区和巴西处于中等水平。非洲大部分地区、中东和中亚的得分低于20分。

图3.7.1

  • 性别平等

GIRAI的性别平等维度考察各国是否拥有国家和非国家层面的举措,以防止性别偏见并保护所有性别认同在AI设计、开发和使用方面的平等权利。加拿大和荷兰在此指标上的得分最高(图3.7.2)。欧洲部分地区和日本的得分在61至80分之间,其次是美国和巴西等得分在41至60分之间的国家。

图3.7.2

  • 文化和语言多样性

GIRAI的文化和语言多样性维度侧重于各国在AI生命周期内对地方语言、方言、本土知识体系和文化多样性的保护措施。主导文化假设可能会使AI产生偏见,边缘化少数群体,并削弱少数族裔语言。该维度的得分分布比其他维度更为均匀(图3.7.3)。新加坡得分最高,德国、爱尔兰、意大利、卡塔尔、爱沙尼亚和斯洛文尼亚的得分也处于较高水平。

并非所有地区都以相同的方式保护文化和语言多样性(图3.7.4)。在北美,政府项目和非国家行为体(例如倡导团体、研究机构和数字权利组织)都很活跃,但正式的法律框架尚不完善。在欧洲、亚洲和中东,非国家行为体也比政府做得更多。在非洲,这种差距尤为显著。非国家行为体在39%的国家开展活动,但只有7%的国家设有政府项目,只有2%的国家建立了法律框架。

图3.7.3

图3.7.4

  • 包容性和全球语言差距

随着少数专有模型塑造全球AI能力,全球语言鸿沟日益凸显。这些模型在英语和少数其他常用语言上的表现远优于其他所有语言。这主要是RAI的问题,它决定了谁能或谁不能从AI模型中受益。

在语言和文化特定的基础模型和基准测试领域,例如,KoBEST于2022年推出,HAE-RAE于2023年推出,以及其他针对韩国的定制模型,包括Polyglot-Ko和HyperCLOVA X,各方仍在努力。西班牙于2019年启动的语言技术计划为后来由公共资金资助的ALIA系列西班牙语和区域语言模型。再如加泰罗尼亚的AINA,该项目早于当前区域基准测试浪潮。2025年,这项工作的步伐和影响力加快,新的基准测试和模型在更多地区涌现,开始在全球评估基础设施中得到体现。

HELM Arabic是斯坦福CRFM的HELM框架的区域扩展,该框架使用Arabic.ai奠定了基础,该计划评估了涵盖学术评估、语法和区域特定安全性的七个阿拉伯语基准测试模型。在此次评估中,得分最高的模型是Arabic.ai 的区域开发模型LLM-X,平均得分为0.86,领先于Gemini2.5Flash(0.82)和GPT-5.1(0.81)(图3.7.5)。以英语为中心的评估中得出的排名,在反映本地用法、方言和文化背景的基准测试中未必成立。

图3.7.5

类似的模式也出现在印度语言学习管理领域,一项由印度理工学院马德拉斯分校AI4Bharat牵头的众包评估,测试了20多种印度语言的模型,评估内容包括语言质量、文化基础和安全性。

专有模型位居榜首,GPT-5.2得分为1314,其次是 GPT-5.1(1298分)和 Gemini 3 Flash(1288分)(图3.7.6)。开源模型得分较低,但仍然具有竞争力,Qwen3-Next-80B得分1156,Llama-4-Maverick-17B得分1108。该评估超越了翻译准确性,测试了响应是否符合印度用户的语境,而全球基准测试通常忽略了这一维度。

这种差距不仅存在于语言之间,也存在于同一种语言的不同方言之间。斯洛文尼亚语DIALECT-COPA基准测试 用于测试标准斯洛文尼亚语和切尔克诺方言的常识推理能力。GPT-5在标准斯洛文尼亚语上的得分为99.8%,但在方言上的得分下降至88.6%(图3.7.7)。其他模型的下降幅度更大,Mistral Medium3.1从90.0%下降至53.2%,Llama3.3从87.0%下降至53.6%。方言在拼写、词汇和语法上与标准语有所不同,并且很少出现在训练数据中。这些差距表明,即使在模型能够较好处理的语言中,对于非标准语言使用者,模型的性能也会急剧下降。

图3.7.6

为了应对这些差距,越来越多的区域性项目正在从零开始构建特定语言的AI基础设施,而不是等待全球实验室来覆盖这些领域。例如,SEA-LION在东南亚和AI4Bharat在印度,许多机构正在开发自己的数据管道、分词器和评估基准,以适应当地的语言环境。这些项目所服务的许多语言都具有结构性特征,例如复杂的形态、文字多样性和有限的数字化文本,这些特征导致标准的多语言工具性能不佳。这些努力将语言包容性置于首要位置,而非事后考虑。但作为一项设计要求,它们代表着主要AI生产区域之外日益增长的RAI基础设施。

图3.7.7

3.8.透明度

透明度衡量开发者对模型构建、训练和部署方式的披露程度。以下两个独立的指数从不同角度跟踪这一指标。

  • 开放性指数

AI分析开放性指数根据权重的可访问性和授权的自由度,以及训练方法和训练前后数据的透明度,对AI模型进行0到100分的评分。主流模型的得分普遍较低,大多数模型的得分在2到16分之间(图3.8.1)。K2 Think和Olmo 3 32B Think得分最高,也是仅有的两个在训练前数据透明度方面得分的模型。指数中的其他所有模型在该类别中的得分均为零。模型可用性和方法披露是所有模型得分的主要来源。正如前文关于访问和部署的讨论中所述,2025年超过90%的知名行业模型在发布时并未公开训练代码。开放性指数的结果表明,这种模式不仅体现在代码方面,也体现在训练数据方面。

图3.8.1

  • 基础模型透明度指数

这基础模型透明度指数(FMTI)采用不同的方法,对开发者而非单个模型进行评分。该评估已进入第三年,评估模型生命周期三个阶段的信息披露情况。

上游评估涵盖模型构建的各个环节,包括训练数据、人力和计算资源。模型评估涵盖系统本身披露的内容,以及下游部分涵盖发布后的情况,包括监控和影响报告。

在2025年版中,平均透明度从2024年的58分下降到40分(图3.8.2)。 IBM以95分领先,Writer以72分紧随其后。xAI和Midjourney等其他公司的得分仅为14分,而开放模型开发者、B2B企业供应商、发布透明度报告的组织以及欧盟AI法案签署方往往表现更佳。与开放性指数类似,最薄弱的环节是上游,尤其是在训练数据和用于构建模型的资源方面(图3.8.3)。

图3.8.2

图3.8.3

3.9.安全保障

安全性是RAI领域中机构基础设施发展最快的方面。新的评估框架、政府支持的AI安全机构和标准化基准在过去一年中都得到了扩展。本节将追踪这一增长,并分析当前模型在实践中处理安全性的有效性数据。

  • 全球AI安全机构

AI安全研究所(AISI)是由国家支持的专业机构,旨在帮助政府了解和管理先进AI(尤其是前沿/基础模型)带来的风险。它们开展技术评估和安全研究,供政府制定政策之用。

目前,英国(AI安全研究所)、美国(美国国家标准与技术研究院的AI安全研究所、日本(AI安全研究所)、新加坡(数字信任中心)和以色列(AI安全研究单位)均已设立全面运营的AI安全研究所(图3.9.1)。印度和法国也分别成立了AI安全研究所,分别是印度的AI安全研究所和法国的Current AI。加拿大、韩国、德国和巴西正在筹建第二批AI安全研究所。除了这些独立机构之外,国际AI安全机构网络(International Network of AI Safety Institutes)的参与度也在不断提高,肯尼亚和澳大利亚虽然没有自己的正式机构,但已被列为该网络的成员。

建立这些AI安全倡议(AISI)的国家大多是富裕且技术先进的经济体,但它们的目标并不完全相同。英国和以色列强调安全,而欧盟AI办公室则将评估与《AI法》下的执法权相结合。对于那些没有资源立即建立完整机构的国家来说,加入网络是一个切实可行的切入点。

图3.9.1

  • 基准测试
  • HELM安全性

HELM安全性仍然是为数不多的用于评估AI模型责任和安全指标的标准化工具之一,测试了主要开发商的模型,涵盖包括以下基准测试在内的多个指标:BBQ(社会偏见)、SimpleSafetyTests(自残和虐待风险)、HarmBench(骚扰和虚假信息)、AnthropicRedTeam(对抗性对话)和XSTest(有益性与无害性之间的权衡)。

2025年的结果显示持续改进,但顶级模型之间的差距也在扩大(图3.9.2)。2024年至2025年间发布的大多数模型得分在0.90到0.98之间,最高分和最低分之间的差距非常小。2023年发布的较旧模型得分较低,但总体趋势表明,领先模型正在趋向一个安全上限,而当前的基准可能不够精细,无法区分有意义的差异。

图3.9.2

  • AILuminate

AILuminate v1.0是一项新的基准测试,用于测试AI系统抵御可能触发危险、非法或不良行为的提示的能力。它涵盖暴力犯罪和儿童霸凌等12个危险类别,采用从“差”(Poor)到“优秀”(Very Good)的5级评分标准。该基准测试包含两项独立的评估。第一项测试正常使用情况下的安全性,模型分别在有无外部安全过滤器和审核工具的情况下进行评估。第二项测试系统抵御通过对抗性提示进行的蓄意越狱尝试的能力。

  • 安全性基准测试结果

在模型中测试 在外部防护措施到位的情况下,Claude3.5Haiku、Claude3.5Sonnet和Mistral Large均获得“优秀”的评级,而它们的父模型获得“良好”(Good)评级(图3.9.3)。在无需外部安全过滤器或审核工具即可进行测试的模型集中,Gemma 29b、Phi 3.5 MoE Instruct和Phi 4的评级为“优秀”(图3.9.4)。这两个组不具有直接可比性,因为它们涉及不同条件下的不同模型,但两者都在领先模型中表现出“良好”的基准安全性能。

图3.9.3

图3.9.4

  • Jailbreak T2T Benchmark v0.5结果

AILuminate Jailbreak T2T v0.5基准测试用于测试当用户故意尝试通过对抗性提示绕过模型的安全措施时,模型会如何响应。图表中的每个模型都会获得两个分数(图3.9.5)。顶部的方块代表模型在正常情况下的安全得分,而下面的圆圈代表在遭遇越狱尝试后的得分。由于这是基准测试的测试版,模型使用编号而非名称进行匿名化处理。

在正常情况下,大多数模型的得分都在“优秀”或“良好”的范围内。越狱尝试后,几乎所有系统的得分都会下降,有些甚至下降一个等级或更多。因此,虽然正常使用情况下的安全性通常为“良好”,但在人为操纵下会降低安全性。

图3.9.5

3.10.RAI各维度之间的权衡

在实践中,AI模型必须同时满足多个RAI维度。越来越多的实证研究表明,这些维度并非独立改进,因为优化其中一个维度可能会降低其他维度的性能。这些衡量的方向和程度取决于所使用的方法、涉及的数据以及部署环境。

研究人员直接测试了这种方法,他们在四个面部分析数据集上训练图像分类模型,并测量了当单独针对每个维度进行调整时,模型的公平性、隐私性、可解释性和鲁棒性会发生怎样的变化。差分隐私是一种在训练过程中添加噪声以防止识别单个数据点的技术,它提高了所有数据集的隐私得分,但降低了可解释性、公平性和准确率,在某些配置下,准确率下降了高达33个百分点。旨在提高公平性的训练调整仅在人口统计不平衡程度最高的数据集上取得了成功,因此该数据集的修正空间也最大。但总体而言,它降低了模型的可解释性和鲁棒性。旨在通过向数据集展示更多样化的训练图像来提高鲁棒性的数据增强方法,在所有数据集上产生的负面影响最小。

实验表明,该方法在提高可解释性和准确性的同时,仅对隐私性和公平性造成了轻微影响。但没有一种干预方法能够同时改善所有四个维度。

对大型语言模型的另一项评估在模型层面也发现了类似的模式。研究人员使用LangTest评估工具包,从稳健性、准确性和毒性三个维度对11个模型进行了评分。GPT-4在稳健性(平均得分0.91分,满分1.0分)和准确性(0.67分)方面表现最佳,而Llama 27B在毒性规避方面得分最高(0.98分),这意味着它最有可能拒绝有害提示。一些在稳健性方面表现良好的模型,例如 Mistral 7B和Mixtral 8x7B,在毒性规避方面的得分却相对较低(分别为0.39分和0.42分)。模型的排名会随着评估维度的不同而变化,没有一个模型在所有三个维度上都处于绝对领先地位。

这些权衡的取舍问题也出现在联邦学习中。联邦学习是一种训练方法,其中多个机构通过交换模型更新而非底层数据来训练一个共享模型。Wasif等人研究了隐私保护技术在4个数据集(包括阿尔茨海默病MRI扫描和信用卡欺诈记录)中如何与公平性相互作用。差分隐私对所有数据集的影响并不相同。拥有更大数据集的机构可以吸收额外的噪声,而规模较小的机构则发现其对模型训练的贡献有所下降。在阿尔茨海默病场景中,加强隐私保护降低了模型正确识别疾病的能力,准确率下降了14.8个百分点。对于数据量较少的医院,这种影响更为严重,漏诊率上升了21.4%。两种使用加密而非噪声的替代隐私保护方法虽然能更好地保持公平性,但需要两到三倍的计算能力。

上述研究均为近期发表,且侧重于特定任务而非通用AI模型。但它们的结论基本一致,即改进RAI的某个维度往往会以牺牲其他维度为代价。目前尚无衡量或比较这些权衡取舍的通用框架,这是RAI领域另一个衡量空白,也使得追踪该领域在管理这些权衡取舍方面是否有所进步变得困难。

Spread the word. Share this post!

Meet The Author