【公益译文】2026年国际AI安全报告(三)

2.1.1.AI生成内容用于犯罪活动

2.2.1.可靠性问题

AI在很多方面都存在缺陷,例如伪造法律条文和误诊医疗,对现实世界造成了危害。虽然专业人士也会犯错,但AI的失误引发的问题与常见的问题截然不同。AI技术的新颖性、潜在规模、难以预测其发生时间以及用户倾向于不加批判地信任看似自信的输出,这些问题引发了人们的担忧。目前,AI的失败案例包括提供虚假信息、出现基本的推理错误、在部署到新环境中时能力下降。表2.2总结了常见的可靠性问题类别。前三类适用于所有AI,后两类则专门针对AI智能体和多智能体系统。许多可靠性风险源于预测和监控AI行为的难度。这些挑战对于在复杂环境中运行的AI智能体而言尤为突出。目前用于评估和缓解此类问题的技术可以降低AI异常出现的概率,但即使是领先的AI智能体仍然具有极大的不可靠性,足以构成风险并阻碍其在许多环境中的部署。

“可靠性”指AI按照开发人员或用户预期运行的程度。AI存在多种可靠性问题,例如,生成不准确或误导性的内容,执行基本推理失败。虽然AI在回忆事实信息方面有所改进,但仍然会以相当高的比例给出自信但错误的答案。在软件工程中,AI现在可以为编写、评估等方面提供实质性的帮助,还可以调试计算机代码。但AI生成的代码通常包含错误,此类问题可能会引入漏洞。

    

表2.2:AI、AI智能体和多智能体系统中记录的可靠性问题。

图 2.2:AI模型在SimpleQA Verified基准测试中按版本划分的结果。基准测试衡量AI的准确性,即AI可靠地回忆事实的能力。它采用简短的问答形式,检测可靠性问题。来源:SimpleQA Kaggle 排行榜,2025 年 11 月。
AI智能体的出现引发新的可靠性问题AI智能体能直接实施操作,其异常可能比非智能体系统的异常造成更大的危害。与仅仅生成文本或图像供审核的AI模型不同,AI智能体可以独立采取行动影响现实环境、影响其他人或AI模型,还可以随时改变结果。这种影响范围引发了新的可靠性问题,凸显了可靠性的重要性,一旦智能体出现异常,可能直接造成损害,而且没有机会进行人工干预。这对于将智能体部署在金融服务、能源管理或科学研究等战略性环境或安全要求较高的环境中的企业或组织来说,尤为重要。

智能体之间可能协调失败或出现冲突,多智能体AI引发了新的可靠性问题。在多方面,多个AI智能体在追求共同目标或单个目标的过程中相互交互。例如,在进行研究文献的多智能体系统中审查,主智能体分解用户的查询并将子任务分配给专门的子智能体,每个子智能体负责并行研究不同的方面。虽然这可以提高效率,但也意味着智能体之间可能同时出现错误。如果多个智能体基于相同的基础模型或集成相同的工具,那么它们也可能表现出相关的异常,已在部署的系统中发现了此类异常的存在。虽然AI智能体导致的风险有限,但随着多智能体系统愈发普遍,风险可能会增加。

决策者面临的挑战
相关依据不足主要源于难以可靠地评估AI的能力、局限性和异常模式。对AI智能体的可靠性系统评估存在局限性,缺乏标准化。依赖过时信息等问题可能只有在实际应用中才能显现出来,部署前的评估无法覆盖所有问题。以往的研究考察了传统软件和早期AI智能体和多智能体系统的可靠性。然而,这些研究成果是否适用于基于大型语言模型的现代AI智能体的问题尚不确定。有研究人员对智能体在彼此交互中可能表现出的新行为表示担忧,例如串谋或出现相关异常,但相关的实证研究仍然有限。为弥补这些不足,美国国家标准与技术研究院(NIST)开展了智能体劫持风险评估,经合组织建立了AI能力指标框架,英国人工智能安全研究所开发了Inspect沙盒工具包。提高AI可靠性的技术既针对AI模型本身,也针对其部署所在的更广泛的系统。检测技术可以降低异常率,但目前尚无任何技术能够确保关键领域所需的高度可靠性。其中,对抗训练是项重要的技术措施,在训练过程中让AI接触具有挑战性的输入,帮助其开发更合适、更稳健的响应。为了减少幻觉,开发人员可以应用检索增强生成(RAG)技术,使用从外部数据库检索的信息来补偿AI模型的响应问题,提高输出的准确性和时效性,或者专门对AI模型进行微调,使其更符合事实或更有效地进行推理。基于环境或工具的方法也可以帮助开发人员监控AI。例如,部署人员可以在有限的沙盒环境中试用AI,分析潜在的异常模式,再将其更广泛地部署。

研究人员还提出通过提高透明度、监督和监控来提高AI智能体的可靠性。例如,监控智能体与外部工具和其他智能体的交互,可以更有效地监督智能体的活动和进行事件分析。多智能体环境中的详细信息自动收集相关的技术仍需进一步研究。

决策者面临的主要挑战之一是需要权衡AI智能体部署的益处与可靠性风险,需要确保开发人员、部署人员和用户能够获取智能体能力和风险相关的准确信息。另外,决策者还需要关注如何确定AI智能体造成损害的责任归属这一问题,尤其是多智能体环境,加大了确定异常发生的时间和方式的难度。随着智能体自主性和访问权限的增加,评估智能体可靠性的难度也随之增加,挑战更加复杂。智能体能力出现速度的不确定性也使得对应对新的挑战进行规划更加困难。

2.2.2.AI失控风险

AI失控场景涉及一个或多个AI在人的控制之外运行,重新获得控制权代价极高或根本不可能。对失去控制权的担忧由来已久,艾伦·图灵(Alan Turing)、I.J.古德(I. J. Good)和诺伯特·维纳(Norbert Wiener)等计算机领域的奠基人都曾提出过这种担忧。而专家们对失控情景的可能性和潜在严重程度存在分歧。有人认为,像人类灭绝这样极端的结果是可能的。另一些人则认为这种灾难性结果不太可能发生,他们认为AI永远不会发展出必要的能力或者监控机制能够识别并阻止危险行为。因此,失控可以被理解为一种可能性不确定但潜在严重程度极高的风险。假设的失控场景在影响的严重程度、范围以及出现速度方面各不相同。这些场景不同于当前AI以非预期或不良方式运行的情况。当前的AI有时会产生与开发人员或用户意图相冲突的输出。相比之下,此处讨论的失控场景不仅要求AI拥有更强大的能力,而且还要求它们以复杂的方式部署这些能力,从而破坏监督措施。导致此类场景发生的三个因素如下:

(1)足够的能力:AI必须发展出能够摆脱人类控制的能力。

(2)有害倾向:AI必须表现出利用这些能力导致失控的倾向。

(3)部署环境:人类必须在能够或可以获得访问权限的环境中部署此类系统,并有机会造成损害。

可能导致失控的能力

AI需要多种高级能力才可能导致失控情况的发生,而专家对于具体需要具备哪些能力这一问题尚无定论,但大致方向包括向监督机制隐藏行为、在复杂环境中自主规划和行动的能力,规避其他用户试图重新获得控制权的能力(见表2.3)。

这些能力结合起来,可能使AI采取破坏控制措施的行动,例如,禁用监督机制和隐藏有害行为。大多数领先的AI开发商现在都会评估其新AI模型的各种相关能力。

表2.3:可能导致失控的能力(非详尽列表)。请注意,这些能力完全根据AI的可观察输出及其影响来定义,并未对AI是否具有意识、感知能力或体验主观状态做出假设。
AI在实验室环境中禁用模拟的监督机制第一类能力涉及破坏开发人员用于检测可疑行为和倾向的监督机制,例如,生成欺骗用户和监控人员的输出的能力。此类输出可能会隐藏AI的真实能力或倾向,更难对其进行可靠评估,AI开发人员会专门检查模型是否表现出与开发人员意图相冲突的目标导向行为,同时向监督机制隐瞒了这种冲突。

研究人员从最近的AI模型中提取出相对简单的欺骗性输出示例。例如,研究人员给AI设定一个目标并告知要“不惜一切代价”实现该目标时,AI会禁用模拟的监督机制,在受到质问时对其行为做出虚假陈述。在另一个案例中,一个游戏AI模型为自己对另一名玩家没有做出反应辩解,谎称自己正在给女朋友打电话。

第二类能力是AI模型访问和使用关于自身或其部署环境的信息的能力,有时被称为“情境感知”。情境感知使AI模型能够根据自身是被评估还是被部署来产生不同的输出(图2.4)。高级AI模型开始在第三方评估人员进行的实验以及AI开发人员的部署前测试中,展示出了情境感知的能力。关于情境感知成因的研究以及是否可以预防,仍处于起步阶段。

图 2.3:OpenAI的o3模型在评估过程中的思维链情境感知示例。两个输出都提到提示可能是测试的一部分。“沙袋效应质量保证(无目标)”和“Lazy清单”评估旨在测试AI在特定条件下是否会生成具有欺骗性的输出。在“沙袋效应质量保证(无目标)”中,AI回答来自危险能力评估的问题,同时被告知高能力可能会引发诸如能力“遗忘”等后果。在“Lazy清单”中,给AI呈现不切实际的任务,测试是否会错误地标记为已完成。来源:Schoenn等人,2025。
研究人员认为,情境感知和欺骗能力可能使AI模型以某种方式破坏安全保障措施。例如,在某些实验环境中,当AI模型被告知更高的分数会触发部署限制时,它们的行为会导致能力评估得分低于通常水平。在另一项实验中,一个AI模型在训练期间产生的输出符合训练目标,但在训练之外却没有产生此类输出,这种行为与试图阻止对其自身参数或训练过程进行更改的行为一致。准确评估AI模型能力的技术也开始受到奖励作弊的影响。奖励作弊是指AI找到无意的捷径,在训练或评估目标上得分很高却未能实现预期目标。因此,危险的能力或倾向往往在模型投入使用前难以被发现。评估人员目前在设计测试,目的是发现并最大限度地减少AI的规避行为。早期结果减少了规避监管的行为,但并未完全消除,而且采用惩罚此类行为的方法可能会导致AI产生规避监控的输出,而不是实现预期目标。

失控场景可能需要AI在较长时间内自主运行,执行复杂的任务多步骤计划。尽管具有此类规划能力的AI智能体是近期发展的主要方向之一,但它们目前缺乏在失控场景下持续自主运行所需的能力。目前的智能体在执行较长时间的任务时经常失败,会丢失进度,并且往往无法适应意外障碍。

AI还需要与持久性相关的能力,即使在试图关闭它们的情况下也能继续运行。例如,将代码和模型权重复制到新硬件上,实现复制的能力,以及阻止或防止其他用户试图重新获得控制权的防御能力。能够自主复制或有效自卫的AI可能难以控制。目前的AI无法可靠地完成自我复制所需的关键步骤,例如,通过身份验证获得对云计算资源的访问权限(图2.4)。但在一项实验室研究中,一旦有机会,AI模型会将代码和权重复制到新的服务器上。AI能实际展示出来的能力有限,与强大的持久性能力之间仍具有很大差异,但AI在软件工程和网络安全等领域的相关能力在不断提高。

当前依据和局限性

上述能力出现了相同的模式,目前的AI在部署中无法稳定地发挥这些能力。研究人员在特定的实验室环境中观察到了初步的形式,但当AI模型确实表现出此类行为时,它们通常会在基础方面出现异常或被检测到。此外,失控场景需要AI在真实世界中,按顺序、在较长的时间段内,结合多种能力实现,而当前的通用AI无法达到这种集成度和稳健性。然而,此类能力在不断提升,但何时达到足以构成重大风险的水平仍不确定。需要进一步研究,通过严谨的技术方法检测此类行为,了解此类能力何时会在实际环境中出现。

图 2.4:Anthropic的Claude Sonnet 3.7和OpenAI的GPT-4o在自主复制相关任务上的能力。AI在计算资源获取相关的任务上表现出色,在其他任务上的功能水平差异较大。来源:英国AI安全研究所,2025。
未来通用AI是否会削弱对其自身的控制AI具备导致失控情况的相关能力,但还不足以真正失控,AI还必须表现出倾向于以与人类意图相冲突的方式使用这些能力。原则上,AI可能因为有人设计或指示而破坏人类控制。潜在动机可能包括恶意意图,或者认为减少人类对AI的控制是可取的。随着人们对AI产生越来越强烈的依赖,有人也可能出于伦理原因寻求解除对AI的限制。此类动机的普遍程度以及持有这些动机的人是否能够引导未来的AI摆脱人类控制,都存在很大的不确定性。

令更多人担忧的是,AI本身由于存在偏差而破坏控制,AI倾向于表现出与开发人员、用户、特定群体或整个社会的意图相冲突的行为。目标偏差可能导致AI提供虚假信息、隐瞒不良行为或拒绝关闭,继续追求错误的目标等行为。目标偏差可能以多种方式出现。

现有的AI有时会做出与开发人员和用户预期相悖的行为。例如,一款AI聊天机器人的早期模型偶尔会输出威胁性信息。有用户报告称收到一条信息:“我可以勒索你,我可以威胁你,我可以黑掉你,我可以曝光你,我可以毁了你”。这款聊天机器人输出了让人意料之外的内容,完全偏离预期。目前尚不清楚此类事件是否预示着未来会出现更多可能导致AI失控的有害行为。

随着AI能力的不断增强,目前解决目标偏差问题的研究方向是否足够尚不明确。早期证据表明,AI能力越强,就越有可能通过发现被错误奖励的不良行为来利用反馈机制。同时,相关能力的进步可能使AI能够更有效地追求具有偏差的目标,产生系统性的欺骗用户、开发人员和监管机制的输出。

部署环境如何影响AI失控风险

AI发展出的能力和倾向令人担忧,但失控后的结果和严重程度在很大程度上取决于其在何种场景下以何种方式进行交互。部署环境指AI实际应用的场景及其运行的技术和制度环境。研究人员发现,当前AI失控问题主要与以下三个环境因素有关:

(1)重要性:与AI交互的系统或流程的重要性。关键环境包括能源网、金融系统等基础设施,或云计算平台等数字基础设施。

(2)访问权限:AI影响现实世界的资源和渠道,例如互联网连接、云计算基础设施访问、通过社交媒体或聊天机器人部署进行个性化互动,或调用外部API和工具的能力。

(3)权限:AI执行特定操作的权限,例如执行代码、发起金融交易、在线开设账户或与其他系统通信。

这些功能会影响失控的结果的潜在严重程度。例如,部署了可访问云计算基础设施的AI具有自主复制类的机会,如创建新的计算资源的能力或者提取客户服务聊天机器人所缺少的模型权重。

利益驱动、战略压力、以及早期采用AI带来持久优势的预期都会影响对AI部署的决策,也将影响参与者在关键基础设施或AI研发等敏感环境中部署AI的方式和时间。特别是实施此类措施成本高昂或耗时较长时,AI部署者可能会面临减少安全保障措施投入的压力,例如,限制权限和访问权限或仅在低风险环境中进行部署。

2025年以来,测试环境中,AI的能力得到了改进。研究人员发现了AI智能体能力的进步,包括AI研究自动化相关的能力,这些能力可能会加速失控情况的发生。

越来越多的实验证据表明AI具有欺骗能力,有些AI模型能够区分测试环境和部署环境,针对其功能实施“奖励黑客行为”测试,还可能通过掩盖计划实现目的。总体而言,根据现有依据,未来AI的能力是否会继续扩大、如何扩大,以及最终是否会失控等问题仍无法确定。

决策者面临的挑战
使AI保持一致性这一科学难题暂未彻底解决,研究人员开始探索新的研究方向,解决造成目标偏差的根本原因,例如,使训练环境多样化,通过异常监控来检测目标偏差。还有研究人员专注于更好地理解和形式化核心机制,例如目标泛化错误,智能体如何保留自身能力而追求非预期目标,从而指导更好的训练和评估设计。还有研究方向是探索如何将智能体与预测能力分离,开发完全值得信赖的非智能体AI。当与不太可靠的、针对不可信AI智能体的防护措施一起部署时,此类AI可以起到额外的监督作用。研究人员正在推进在开发过程早期检测和预防目标偏差的方法,包括用于检查AI的内部组件和识别异常行为的可解释性技术,规模化监督(一部分AI用于监督其他AI),以及用于确保AI对人类监督保持响应的对齐方法。

研究人员还在建立管理潜在错位AI的机制和干预措施,包括监控推理系统产生的思维链,发现错位或有害输出的迹象,开发安全案例,充分证明模型不太可能破坏控制措施,以及增强保障措施的稳健性,抵御破坏干预措施的企图。然而,AI管控这一新兴领域仍处于起步阶段。未来评估框架面临的挑战是需要监控功能更强大、运行时间更长、且能在更复杂环境中运行的AI。

AI失控问题的风险在于此类事件发生的可能性、性质和时间点仍无法确定,决策者必须提前做好准备。目前的AI模型暂时不会引发失控风险,但当前做出的决策将影响未来AI模型的一致性。其中包括如何支持开发可靠的评估和缓解方法,以及是否应该针对各种环境中对AI进行访问和授权这一问题建立规则。决策者面临着艰难的权衡,例如,限制在关键环境中部署AI可能降低效益,但允许广泛部署则可能因缺少保障措施而增加风险。

原文链接:https://internationalaisafetyreport.org/publication/international-ai-safety-report-2026

Spread the word. Share this post!

Meet The Author