【公益译文】2026年国际AI安全报告（二）

阅读： 644

1.6.2030年AI发展前景：

经合组织（OECD）的情景分析

针对当前AI的发展趋势和不确定性，经合组织基于专家意见和实证进行了情景分析，探讨了到2030年AI的发展趋势。经合组织与《国际AI安全报告》专家团队合作，将这些情景纳入了本报告。到2030年，可能出现以下四类情景。

情景1：发展停滞

AI能力基本保持不变。近年来的快速发展陷入停滞。

情景描述：到2030年，AI能够快速完成一系列人类需要数小时才能完成的任务，但稳健性不足和幻觉问题影响了AI的可靠性。AI通常需要大量的人工支持才能完成任务，例如详细的提示、审核和上下文。AI缺少学习新技能或形成记忆、在较长的复杂任务中保持连贯性的能力，还缺少与动态现实世界或社会环境互动的稳健能力。

发展路径：2025年后，现有前沿AI模型的开发方法受到了根本性限制。导致AI发展放缓的原因可能有以下几点：更大规模的训练运行和更强大的推理系统带来的回报递减；获取计算资源或其他关键投入的限制；AI投资的大幅下降；缺乏重大的算法突破。

情景2：发展放缓

在现有AI训练方法框架内实现渐进式增长，发展持续但速度放缓。

情景描述：到2030年，AI相当于人类的得力助手。AI拥有深厚的知识库，擅长标准形式的结构化推理，能够有效地执行需要使用计算机、浏览网络或代表用户与他人或服务进行有限互动的任务。AI可以保留相关记忆、保持连贯的思维，通过纠错来完成更长或更复杂的任务。但AI缺乏学习新技能的稳健能力，只能在有限的受控环境中（如工厂或实验室）处理现实任务。

发展路径：2025年后，前沿AI模型研发人员的技术难以克服在持续学习、元认知与能动性、问题解决、创造力、现实任务和社会互动等方面的限制，现有训练范式无法提供完美的解决方案。预训练、推理和训练后处理的技术扩展，再加上算法创新，将继续推动发展，但发展速度将低于近年来的水平，且推理系统的泛化能力未能达到预期。由于投资者从持续投资中看到的回报降低，继续扩展的能力受到阻碍。硬件、基础设施、自然资源、数据供应和能源方面的瓶颈限制了算力和数据的快速扩展。

情景3：持续发展

发展持续快速推进。

情景描述：到2030年，AI可与专业人员协作。AI能够成功完成虚拟环境中人类需要一个月才能完成的许多专业任务。AI通常需要人类提供专业指导，但往往能够高度自主地朝着既定目标工作，包括自主与多个相关方交互。AI可以有效地形成和检索记忆，在一定程度上实现边做边学，能够成功处理受控环境之外的现实任务和实际的具体任务。

发展路径：2025年后，通过更大规模的训练运行、更强大的推理系统和新的算法创新，AI能力将继续快速发展。算力和数据投入将继续扩展，在2030年前不会遇到实质性限制，与当前对持续发展的范围估计一致。对现有技术的迭代和扩展，或新的算法创新，将使研发人员能够突破当前在持续学习等方面的限制。

情景4：加速发展

AI能力取得巨大突破，在大多数或所有能力上达到或超过人类水平。

情景描述：到2030年，AI相当于人类水平的远程工作者。AI的自主性和认知能力在认知任务上达到或超过人类。AI能够熟练且自主地朝着广泛的战略目标努力，能在环境变化时反思和调整目标，同时在必要时与人类合作。AI可以在部署过程中无缝学习新的信息和技能。AI机器人能够处理现实世界中许多行业和岗位上的复杂任务。但由于实际任务范围较广，AI在这些任务中的表现总体上仍落后于人类，除非是为特定任务专门开发。

发展路径：2025年后，通过持续或加速的预训练、训练后处理和推理技术扩展，现有范式内的AI能力水平将继续呈指数级增长。重大的算法突破以及AI编码助手对AI发展日益重要的贡献，将进一步促进能力的增长。

决策者面临的挑战

关于未来AI能力的主要依据缺口包括：预测相关的科学依据有限；AI发展的现实限制的数据不足；以及对自动化在多大程度上能够加速AI发展的理解有限。首先，研究人员无法准确地预测AI何时会具备某些特定能力，或者扩大关键投入的回报递减将在何处限制AI发展。人类对于基准测试性能与现实世界性能之间的关系仍然缺乏深入理解。因此，虽然可以通过基准测试进行能力预测，但现实世界对其能力的影响具有极高的不确定性。其次，关于可能限制AI发展的现实限制，相关依据有限。限制包括2030年后训练数据的可用性不明，以及能源生产、芯片制造和资本支出是否能跟上AI发展的需求。而且，对于AI促进自身研发的反馈循环的实际经验较少。特别是，这一过程需要多少人工监督，以及大规模实验中的慢反馈循环是否会限制加速，存在极大的不确定性。依据不足问题迫使决策者必须谨慎行事，小心陷阱，一方面可能低估快速涌现的能力，另一方面对可能无法转化为实际应用的技术发展反应过度。决策者需要预设多种情景，针对不同情况制定相应的应急计划。对于从事AI能力预测工作的决策者而言，主要挑战包括测量工具的不可靠以及特定能力的发展时间的不确定性。当前的基准测试往往无法准确反映AI在现实世界的能力，促使人们加大力度开发更具挑战性和现实性的评估技术。例如，即使一个AI模型在编程基准测试中达到90%的准确率，也并不意味着它能够构建功能完善的软件应用程序。由于训练效率提升、推理时优化和架构创新等关键指标的相关数据有限，对算法效率提升的预测具有极大的不确定性。例如，虽然对语言模型算法效率的研究表明，基于之前的数据点，效率每年提升3倍，但无法排除每年2-6倍的提升率范围。

预测方面的挑战加剧了能力发展轨迹的不确定性，针对不同的发展轨迹，需要制定截然不同的政策措施。如果算法技术按照当前估计的上限继续发展，到2030年，AI可能只需1/10至1/100的算力就能实现同等能力。因此，监管机构需要考虑能够适应或稳健应对AI发展速度以及AI发展（尤其是所需资源方面）快速变化的框架。为了减少不确定性，决策者应监测具体指标，包括对现实世界任务的评估、算法创新速度以及AI能力的涌现。

2 风险

AI在现实世界中已经造成了危害。攻击者利用AI生成的内容实施诈骗，AI由于错误和意外行为产生了有害输出，AI部署还对劳动力市场、信息生态系统和网络安全系统产生了影响。此外，AI能力的进步也会带来潜在的风险。

2.1.恶意利用风险

2.1.1.AI生成内容用于犯罪活动

攻击者利用AI生成的虚假内容十分逼真，用于实施诈骗、勒索等犯罪活动。AI极大地简化了大规模制造虚假内容的过程，伪造的内容可用于骚扰或伤害个人。然而，尽管已有严重伤害的案例记录，但关于事件发生频率和严重程度的公开数据仍然有限，难以综合评估风险。2025年以来，AI生成的内容更难与真实内容区分。在一项研究中，经过五分钟的对话，参与者将OpenAI的GPT-4o模型生成的文本误认为是人工撰写的比例高达77%。还有研究表明，人们难以识别深度伪造内容，往往无异于随机猜测。针对音频深度伪造的问题，一项研究发现，人们在80%的情况下将AI语音误认为是真人，这表明AI冒充真人的风险有所上升。但结合视频、音频和文本的多模态AI输出似乎比单独的文本或音频更容易被检测到。警告标识和AI检测工具等帮助人们检测AI生成的虚假内容的方法并非次次有效。AI和机器学习工具可以通过训练来检测图像和视频中的异常，从而识别虚假图像，但有效性有限。例如，一项研究发现，AI生成视频上的警告标识将参与者识别AI生成视频的准确率从10.7%提高到了21.6%，但大多数人仍然无法识别出深度伪造内容。除此之外，还可限制对AI的访问（如仅允许经过审核的用户访问）以及实施保护措施（如分类器、过滤器或规则，防止AI生成有害或误导性内容）。然而，对于开源权重模型，攻击者可以绕过这些措施。

决策者面临的挑战

水印和内容日志是验证内容真实性的有效方法，但面临技术缺陷和隐私问题。水印涉及在内容创建过程中嵌入机器可读的数字签名，对其来源和真实性进行自动化可追溯验证。研究人员提议使用水印帮助用户识别视频、图像、音频和文本等AI生成的内容。但攻击者可以删除单独的水印或骗过检测器，降低有效性，尤其是在开源权重模型的情况下。可以在真实媒体中嵌入水印或安全元数据（如可验证的来源和创建记录）。例如，可以要求记录设备嵌入特殊的数字签名，帮助区分使用设备拍摄的记录与AI生成的内容。还可以维护AI输出的日志，通过比较来识别AI新生成的内容。但这种方法面临可扩展性的问题，容易被规避，可能引发与记录用户交互相关的隐私问题。缓解措施本身并非万无一失，但新的研究表明，在更广泛的标准和政策生态系统中综合使用多种缓解措施，可以弥补各自的局限性，帮助用户更可靠地检测AI生成的内容。决策者面临统计数据不可靠、技术限制以及技术的快速发展等挑战，难以全面评估AI生成的有害内容的规模，并选择有效的干预措施。检测技术和水印技术虽有所改进，但有效性并不稳定，面临技术挑战。AI内容生成技术的发展也可能削弱措施的有效性。与通常用于评估深度伪造内容的基准相比，现实世界中的深度伪造内容更具欺骗性。决策者可能需要采用多层技术检测AI生成内容，才能使效果稳定有效。还要注意，即使内容被明确识别为AI生成内容，该内容也可能造成危害，仅靠检测无法解决所有风险。

2.1.2.网络攻击

攻击者可以利用AI以更快的速度实施更大规模和更高复杂性的网络攻击，例如数据泄露、勒索软件攻击和对关键基础设施的攻击。AI在不同任务上的能力发展不均衡，但仍可以通过任务自动化、识别软件漏洞和生成恶意代码帮助攻击者实施攻击。

AI可贯穿网络攻击全阶段

大量研究表明，AI可以在网络攻击的多个阶段中为攻击者提供支持（见图2.1）。在典型的攻击中，攻击者首先识别目标和漏洞，开发和部署攻击能力，最后保持持续访问以达到数据窃取或系统破坏等目的。软件工程等相关AI能力的进步引发了人们的担忧，AI可能会同时增加网络攻击的频率和严重程度。

图2.1：网络攻击涉及的多个阶段。典型的网络攻击阶段包括侦察、发现目标、利用软件漏洞、实施目标行为。来源：改编自罗德里格斯（Rodriguez）等人，2025年。

地下市场开始出售AI工具和AI生成的勒索软件，降低了实施攻击的技术门槛，更容易被技术水平较低的攻击者获取。AI研发人员进行的安全分析表明，国家支持的黑客团伙使用AI增强其网络攻击能力。例如，攻击者使用AI分析已披露的漏洞、开发规避技术、编写黑客工具的代码。AI能力在网络攻击相关的所有任务中都有所进步，但发展不均衡（见图2.1）。大型训练数据集使AI特别擅长某些任务，例如发现公开代码中的漏洞，而在某些任务上的能力可能不足，例如破解加密所需的精确数值推理。能力不均衡意味着AI在现实世界中提供的攻击能力有限。例如，AI的源代码分析能力的评估结果无法可靠地迁移到攻击者无法访问底层代码的环境中。大多数评估还会测试某项单独的能力，而非从头到尾执行完整攻击的能力。最近，AI在夺旗竞赛（结构化网络安全挑战）中能力表现出色，但也存在能力不均衡的问题。例如，某个AI模型在2025年高中级别的picoCTF竞赛中排名前3%，但在专业级别的PlaidCTF竞赛中未能解决任何挑战。有证据表明，AI能有效帮助攻击者发现软件漏洞。例如，谷歌的Big Sleep AI智能体被用于发现严重的内存损坏漏洞，攻击者可能利用此类漏洞控制计算机系统，该漏洞存在于许多现实中部署的数据库引擎中。美国国防高级研究计划局（DARPA）AI网络挑战（AIxCC）竞赛最终阶段的参赛者，使用能够访问传统安全工具的AI在软件中寻找漏洞。一个AI模型自主识别出了竞赛组织者引入的77%的漏洞以及其他非故意引入的漏洞。AI还可以通过生成恶意代码、伪装代码绕过检测并为特定目标调整工具，协助恶意软件的开发。安全研究人员发现了实验性的恶意软件，这些恶意软件在运行时会调用AI服务，生成绕过防病毒软件的代码。但这些功能仍然处于实验阶段，受到重大的实际限制。例如，它们依赖外部AI托管服务，一旦提供商暂停攻击者的账户，就很容易被破坏。将AI模型直接嵌入恶意软件可以避免这一问题，但当前的AI模型过于庞大且资源密集，暂时无法实现。

网络攻击的自动化程度

完全自动化的网络攻击将消除需要人类参与的限制，攻击者可能发起更大规模的攻击。AI现在可以自主完成越来越多的任务。2025年11月，AI研发人员报告称，攻击者利用他们的AI模型使入侵过程中80-90%的工作自动化，人类仅在关键决策点进行干预。研发人员还证明，AI可以在实验室环境中独立探查计算机网络的安全漏洞。但暂时没有AI在现实中实施端到端网络攻击的报告。

研究表明，自主攻击仍然受到限制，AI无法可靠地执行漫长的多阶段攻击过程。例如，AI表现出的异常包括执行无关命令、忘记操作状态以及在没有人类干预的情况下无法从简单错误中恢复。

由于这些限制，人机协作仍然是研究和实践中网络行动的主导模式。在这种模式下，人类提供战略指导，将复杂操作分解为可管理的子任务，在AI遇到错误或产生不安全输出时进行干预。同时，利用AI使代码生成或目标识别等技术子任务自动化。

表2.1：该表按2024年至2025年观察到的趋势对主要网络安全威胁类型进行分类，评估AI是否对攻击演变产生了实质性影响。

AI对攻击的影响尚不明确

AI推动了攻击速度和规模的提升，但对攻击频率的影响尚不明确。威胁情报报告记录了AI参与的凭证窃取、自动化扫描和供应链攻击等多种类型的攻击（见表2.1）。迄今为止，AI能力主要体现在加速或扩展现有攻击方法的发展，而非提供新的攻击方式。但很难确定AI的助力与攻击的增加是否存在必然的因果关系。观察到的攻击频率增加可能反映了AI的辅助作用，但也可能是由于检测能力的提高。

许多用于网络攻击的AI技术也能增强防御能力，所以更难以判断AI对攻击者还是防御者更有利。例如，AI技术可以让攻击者快速发现漏洞，也可被防御者用于率先发现并修复漏洞。AI研发企业宣布推出AI安全智能体，主动识别和修复软件漏洞。研究人员还指出，AI可以帮助强化数字环境，通过重写大型代码库提高安全性。与此同时，改进的评估方法有助于评估攻击能力。在部署新的AI之前对其进行评估，及早发现并预警新出现的风险。有研发人员在网络安全和生物研究等敏感领域引入了新的控制措施，限制某些产品的访问权限，仅允许经过审查的组织访问。

AI在攻击和防御作用之间的平衡如何演变，部分取决于模型访问、研究经费和部署标准的选择。例如，由于缺乏AI工具的标准质量保证方法，防御者难以在需要可靠性的关键领域采用AI工具，而攻击者则不受此类限制。

自2025年以来，评估和竞赛结果表明，AI的能力有所提高，有证据表明，攻击者利用AI在现实世界中实施网络攻击的情况已经出现。例如，AI在漏洞发现方面的能力表现较强。AI开发人员也越来越多地报告，攻击者（包括国家支持的攻击者）正在使用AI实施网络攻击行动。

决策者面临的挑战

依据不足主要源于难以可靠地评估AI的能力，AI网络安全评估是新兴领域，基准测试可能会高估AI的能力，例如，如果AI无意中使用了测试数据进行训练。相反，如果基准测试未能考虑到AI在人类可以轻松处理的情况下却失败的情况，或者未能展示AI的真实能力，则可能会低估AI在现实世界的风险。例如，据报道，对于某些AI模型，第三方使用脚手架代码使AI展示出网络安全能力比部署前测试中测得更强。此外，可靠地评估AI对网络攻击的影响也极具挑战性。攻击者采用AI实施攻击的依据主要来自事件报告和威胁情报（见表2.1），但由于缺乏标准化的质量保证方法，来源很少能提供威胁事件的根本原因。针对AI网络攻击技术可采取相应的缓解措施，例如，阻止向AI发出恶意请求，主动加速开发AI网络防御系统。AI提供商开始利用AI检测并阻止与已知攻击者关联的账户，防止其发出有害请求。他们还部署了专门的分类器，用于识别独特的利用模式（如恶意软件生成请求）。这些分类器已集成到安全执行系统中。但缓解措施具有极大的局限性。通过使用功能强大的开放权重模型，攻击者完全可以在离线状态下使用AI，使其不受任何监管。与此同时，防御者在采用AI安全工具方面面临着障碍，缺乏标准化的质量保证方法，而攻击者则不受这一限制。决策者面临的核心挑战是如何在不阻止防御技术创新的前提下，减少AI在网络攻击中的作用。构建强大防御系统所需的许多技术（如漏洞自动识别或事件响应）也同样是实施攻击的基础。过于宽泛的限制可能会减缓防御技术的扩散，无意中降低对国家安全的保障。因此，决策者需要谨慎行事，需要在以下方面取得平衡：鼓励快速响应，支持能够加强防御的开放研究以及实施安全保障措施，以及限制攻击能力不受控制的扩散。

1.6.2030年AI发展前景：

情景1：发展停滞

情景2：发展放缓

情景3：持续发展

情景4：加速发展

决策者面临的挑战

2 风险

2.1.恶意利用风险

2.1.1.AI生成内容用于犯罪活动

决策者面临的挑战

2.1.2.网络攻击

Meet The Author