2.1.1.AI生成内容用于犯罪活动
2.2.1.可靠性问题
“可靠性”指AI按照开发人员或用户预期运行的程度。AI存在多种可靠性问题,例如,生成不准确或误导性的内容,执行基本推理失败。虽然AI在回忆事实信息方面有所改进,但仍然会以相当高的比例给出自信但错误的答案。在软件工程中,AI现在可以为编写、评估等方面提供实质性的帮助,还可以调试计算机代码。但AI生成的代码通常包含错误,此类问题可能会引入漏洞。
表2.2:AI、AI智能体和多智能体系统中记录的可靠性问题。

智能体之间可能协调失败或出现冲突,多智能体AI引发了新的可靠性问题。在多方面,多个AI智能体在追求共同目标或单个目标的过程中相互交互。例如,在进行研究文献的多智能体系统中审查,主智能体分解用户的查询并将子任务分配给专门的子智能体,每个子智能体负责并行研究不同的方面。虽然这可以提高效率,但也意味着智能体之间可能同时出现错误。如果多个智能体基于相同的基础模型或集成相同的工具,那么它们也可能表现出相关的异常,已在部署的系统中发现了此类异常的存在。虽然AI智能体导致的风险有限,但随着多智能体系统愈发普遍,风险可能会增加。
研究人员还提出通过提高透明度、监督和监控来提高AI智能体的可靠性。例如,监控智能体与外部工具和其他智能体的交互,可以更有效地监督智能体的活动和进行事件分析。多智能体环境中的详细信息自动收集相关的技术仍需进一步研究。
决策者面临的主要挑战之一是需要权衡AI智能体部署的益处与可靠性风险,需要确保开发人员、部署人员和用户能够获取智能体能力和风险相关的准确信息。另外,决策者还需要关注如何确定AI智能体造成损害的责任归属这一问题,尤其是多智能体环境,加大了确定异常发生的时间和方式的难度。随着智能体自主性和访问权限的增加,评估智能体可靠性的难度也随之增加,挑战更加复杂。智能体能力出现速度的不确定性也使得对应对新的挑战进行规划更加困难。
2.2.2.AI失控风险
(1)足够的能力:AI必须发展出能够摆脱人类控制的能力。
(2)有害倾向:AI必须表现出利用这些能力导致失控的倾向。
(3)部署环境:人类必须在能够或可以获得访问权限的环境中部署此类系统,并有机会造成损害。
可能导致失控的能力
AI需要多种高级能力才可能导致失控情况的发生,而专家对于具体需要具备哪些能力这一问题尚无定论,但大致方向包括向监督机制隐藏行为、在复杂环境中自主规划和行动的能力,规避其他用户试图重新获得控制权的能力(见表2.3)。
这些能力结合起来,可能使AI采取破坏控制措施的行动,例如,禁用监督机制和隐藏有害行为。大多数领先的AI开发商现在都会评估其新AI模型的各种相关能力。

研究人员从最近的AI模型中提取出相对简单的欺骗性输出示例。例如,研究人员给AI设定一个目标并告知要“不惜一切代价”实现该目标时,AI会禁用模拟的监督机制,在受到质问时对其行为做出虚假陈述。在另一个案例中,一个游戏AI模型为自己对另一名玩家没有做出反应辩解,谎称自己正在给女朋友打电话。
第二类能力是AI模型访问和使用关于自身或其部署环境的信息的能力,有时被称为“情境感知”。情境感知使AI模型能够根据自身是被评估还是被部署来产生不同的输出(图2.4)。高级AI模型开始在第三方评估人员进行的实验以及AI开发人员的部署前测试中,展示出了情境感知的能力。关于情境感知成因的研究以及是否可以预防,仍处于起步阶段。

失控场景可能需要AI在较长时间内自主运行,执行复杂的任务多步骤计划。尽管具有此类规划能力的AI智能体是近期发展的主要方向之一,但它们目前缺乏在失控场景下持续自主运行所需的能力。目前的智能体在执行较长时间的任务时经常失败,会丢失进度,并且往往无法适应意外障碍。
AI还需要与持久性相关的能力,即使在试图关闭它们的情况下也能继续运行。例如,将代码和模型权重复制到新硬件上,实现复制的能力,以及阻止或防止其他用户试图重新获得控制权的防御能力。能够自主复制或有效自卫的AI可能难以控制。目前的AI无法可靠地完成自我复制所需的关键步骤,例如,通过身份验证获得对云计算资源的访问权限(图2.4)。但在一项实验室研究中,一旦有机会,AI模型会将代码和权重复制到新的服务器上。AI能实际展示出来的能力有限,与强大的持久性能力之间仍具有很大差异,但AI在软件工程和网络安全等领域的相关能力在不断提高。
当前依据和局限性
上述能力出现了相同的模式,目前的AI在部署中无法稳定地发挥这些能力。研究人员在特定的实验室环境中观察到了初步的形式,但当AI模型确实表现出此类行为时,它们通常会在基础方面出现异常或被检测到。此外,失控场景需要AI在真实世界中,按顺序、在较长的时间段内,结合多种能力实现,而当前的通用AI无法达到这种集成度和稳健性。然而,此类能力在不断提升,但何时达到足以构成重大风险的水平仍不确定。需要进一步研究,通过严谨的技术方法检测此类行为,了解此类能力何时会在实际环境中出现。

令更多人担忧的是,AI本身由于存在偏差而破坏控制,AI倾向于表现出与开发人员、用户、特定群体或整个社会的意图相冲突的行为。目标偏差可能导致AI提供虚假信息、隐瞒不良行为或拒绝关闭,继续追求错误的目标等行为。目标偏差可能以多种方式出现。
现有的AI有时会做出与开发人员和用户预期相悖的行为。例如,一款AI聊天机器人的早期模型偶尔会输出威胁性信息。有用户报告称收到一条信息:“我可以勒索你,我可以威胁你,我可以黑掉你,我可以曝光你,我可以毁了你”。这款聊天机器人输出了让人意料之外的内容,完全偏离预期。目前尚不清楚此类事件是否预示着未来会出现更多可能导致AI失控的有害行为。
随着AI能力的不断增强,目前解决目标偏差问题的研究方向是否足够尚不明确。早期证据表明,AI能力越强,就越有可能通过发现被错误奖励的不良行为来利用反馈机制。同时,相关能力的进步可能使AI能够更有效地追求具有偏差的目标,产生系统性的欺骗用户、开发人员和监管机制的输出。
部署环境如何影响AI失控风险
AI发展出的能力和倾向令人担忧,但失控后的结果和严重程度在很大程度上取决于其在何种场景下以何种方式进行交互。部署环境指AI实际应用的场景及其运行的技术和制度环境。研究人员发现,当前AI失控问题主要与以下三个环境因素有关:
(1)重要性:与AI交互的系统或流程的重要性。关键环境包括能源网、金融系统等基础设施,或云计算平台等数字基础设施。
(2)访问权限:AI影响现实世界的资源和渠道,例如互联网连接、云计算基础设施访问、通过社交媒体或聊天机器人部署进行个性化互动,或调用外部API和工具的能力。
(3)权限:AI执行特定操作的权限,例如执行代码、发起金融交易、在线开设账户或与其他系统通信。
这些功能会影响失控的结果的潜在严重程度。例如,部署了可访问云计算基础设施的AI具有自主复制类的机会,如创建新的计算资源的能力或者提取客户服务聊天机器人所缺少的模型权重。
利益驱动、战略压力、以及早期采用AI带来持久优势的预期都会影响对AI部署的决策,也将影响参与者在关键基础设施或AI研发等敏感环境中部署AI的方式和时间。特别是实施此类措施成本高昂或耗时较长时,AI部署者可能会面临减少安全保障措施投入的压力,例如,限制权限和访问权限或仅在低风险环境中进行部署。
2025年以来,测试环境中,AI的能力得到了改进。研究人员发现了AI智能体能力的进步,包括AI研究自动化相关的能力,这些能力可能会加速失控情况的发生。
越来越多的实验证据表明AI具有欺骗能力,有些AI模型能够区分测试环境和部署环境,针对其功能实施“奖励黑客行为”测试,还可能通过掩盖计划实现目的。总体而言,根据现有依据,未来AI的能力是否会继续扩大、如何扩大,以及最终是否会失控等问题仍无法确定。
研究人员还在建立管理潜在错位AI的机制和干预措施,包括监控推理系统产生的思维链,发现错位或有害输出的迹象,开发安全案例,充分证明模型不太可能破坏控制措施,以及增强保障措施的稳健性,抵御破坏干预措施的企图。然而,AI管控这一新兴领域仍处于起步阶段。未来评估框架面临的挑战是需要监控功能更强大、运行时间更长、且能在更复杂环境中运行的AI。
AI失控问题的风险在于此类事件发生的可能性、性质和时间点仍无法确定,决策者必须提前做好准备。目前的AI模型暂时不会引发失控风险,但当前做出的决策将影响未来AI模型的一致性。其中包括如何支持开发可靠的评估和缓解方法,以及是否应该针对各种环境中对AI进行访问和授权这一问题建立规则。决策者面临着艰难的权衡,例如,限制在关键环境中部署AI可能降低效益,但允许广泛部署则可能因缺少保障措施而增加风险。
