【公益译文】2026年AI指数报告（四）

阅读： 2,172

2.5 特定领域的能力表现

AI模型在通用推理和知识基准测试中的能力表现不断提高，人们的关注点已转向它们在需要专业知识的任务上的能力表现。本节中的基准测试涵盖四个专业和学术领域：编码、数学、金融和法律问题。每个领域都有专业词汇、惯例和标准，用于界定何为正确且易于理解的答案。其中许多基准测试都是新的，反映了对特定领域评估日益增长的需求。除非另有说明，以下报告的结果反映的是截至 2026 年初的模型性能。

软件

编码基准测试用于检验模型是否能够回答超越代码相关的问题，实际编写、调试和发布可运行的软件。本节中的任务范围从解决真实的 GitHub 问题到从零开始构建完整的 Web 应用程序，这反映出评估方式的转变，即从衡量孤立的代码片段转向衡量模型端到端的交付能力。

SWE-bench

SWE-bench 评估模型

SWE-bench 测试模型解决从 GitHub 收集的真实软件问题的能力。每个任务都会给模型提供一个代码库和问题描述，模型需要生成一个可用的补丁。SWE-bench Lite 是更小、更易于访问的子集，而 SWE-bench Verified 则使用人工验证的问题，以确保评分更加一致和准确。

在 SWE-bench Verified 测试中，顶级模型的得分高度集中在 70% 左右（图 2.5.1）。截至 2026 年 2 月，Claude 4.5 Opus（高推理能力）以约 76.8% 的得分领先，Kimi K2.5、GPT-5.2 和 Gemini 3 Flash（高推理能力）等模型的得分则在 70% 到 76% 之间。多个基准测试都呈现出类似的模式，高性能模型的得分彼此相差无几。

图2.5.1

Terminal-Bench

Terminal-Bench 是用于在真实终端环境中测试 AI Agent的基准测试工具。它评估Agent自主处理现实中端到端任务的能力，从编译代码到训练模型再到设置服务器。这些任务是开发人员日常工作中可能遇到的情况，需要Agent在没有人工指导的情况下将多个步骤串联起来。

在过去一年中，Terminal-Bench 2.0 的准确率显著提高，从 2025 年 2 月的 20% 增加到 2026 年初的 77.3%（图 2.5.2）。

图 2.5.2

Vibe 代码基准测试

Vibe 代码基准测试是首个用于测试 AI 模型能否从零开始自主构建完整端到端 Web 应用程序的基准测试。它不衡量编码辅助能力，而是评估实际的构建能力。

软件交付，并查看模型是否可以接受提示并生成功能性应用程序。

不同模型的性能差异很大（图 2.5.3）。Claude Opus 4.6（非思考型）以 56.5% 的准确率领先，其次是 GPT 5.2，接近 47% 的准确率。GPT 5.3 Codex（41.4%）之后，得分下降到 30% 以下，有些模型甚至低于 15%。准确率最高和最低的模型之间的差距约为 46 个百分点，即使是领先的模型也只解决了大约一半的任务，这表明自主应用程序构建仍然是一项艰巨的任务。

图 2.5.3

数学

除了编码和语言任务之外，数学已成为模型推理的关键测试领域。本节中的基准测试涵盖了从竞赛级问题解决到形式化证明写作的各个方面。

FrontierMath

FrontierMath是由 Epoch AI 推出的基准测试，包含数百道原创且极具挑战性的数学题。这些题目用于测试真正的数学推理能力，而非模式识别能力，即使是经验丰富的数学家也可能需要数小时甚至数天才能解答。

自 2024 年以来，FrontierMath Tier 4的准确率已从接近 0% 上升至 31.3%，2025 年底，GPT-5.2 Pro（Web应用）占据领先地位（图 2.5.4）。该基准测试用于保持其难度，因此即使在短时间内取得了如此显著的进步，最佳模型在最高难度级别中仍然会在大约三分之二的题目上失败。

图 2.5.4

MathArena

MathArena是滚动基准测试，它利用最新发布的数学竞赛题目来测试模型在全新竞赛题型上的表现。它借鉴了高中和奥林匹克级别的知名竞赛，包括AIME、HMMT、USAMO、国际数学奥林匹克竞赛（IMO）。

国际数学奥林匹克竞赛（IMO）和欧拉计划（Project Euler）的模型会在每次竞赛结束后立即运行，以降低训练数据污染的风险。数值答案由系统自动评分，而书面证明则由人工评分，结果会公布在公开排行榜上。

准确率MathArena

2025年11月至12月，这一比例已从约83%上升至97%（图2.5.5）。在基于答案的问题上，领先的模型能够达到甚至超越顶尖人类选手的水平。然而，在基于证明的任务中，当被要求给出严谨的、循序渐进的数学证明时，它们的表现仍然远逊于人类。对于当前的系统而言，获得正确答案并展示其背后的推理过程仍然是两大挑战。

图 2.5.5

定理证明

在数学中，得到正确答案只是挑战的一部分。如果推理存在缺陷，即使结果正确，在竞赛或期刊上也难以获得认可。定理证明，即构建严谨的、循序渐进的论证来证明某个结论必然为真的过程，仍然是AI系统面临的最艰巨的任务之一。直到最近，即使是前沿模型也难以生成能够通过专家评审的证明。

正如去年的AI Index所报道，DeepMind的AlphaProof和AlphaGeometry 2在2024年国际数学奥林匹克竞赛（IMO）中解决了六道题中的四道，以28分的成绩获得银牌。这一成绩需要专家将题目翻译成Lean等形式化语言，并耗费数天时间进行计算。 2025 年，Gemini Deep Think 在 4.5 小时的比赛时限内，以自然语言完成了从头到尾的计算，解决了六道题中的五道，获得了 35 分，赢得了金牌。（Luong 和 Lockhart，2025）。仅用一年时间就从银级跃升至金级，且流程远比以往简单，这标志着竞技数学领域能力提升速度的显著提升之一。

IMO-Bench是一套新的基准测试套件，用于衡量这种进步是真正的推理，还是仅仅是更好的答案猜测。它包含三个部分。IMO-AnswerBench 使用 400 道涵盖代数、组合数学、几何和数论的奥林匹克风格题目测试模型，并提供可验证的简短答案。IMO-ProofBench 评估模型是否能够为 60 道难度从 IMO 预备级到 IMO 正式级的题目生成严谨的逐步证明。IMO-GradingBench 提供了一个包含 1000 个解决方案示例和人工评分证明的数据集，以支持自动证明评分系统的开发。

传统上，数学证明的评分需要人类专家，这限制了能够大规模评估的模型和解决方案的数量。在 IMO-ProofBench 上，自动评分系统给出的分数与人类专家给出的分数非常接近，基础问题的皮尔逊相关系数为 0.96，高级问题的皮尔逊相关系数为 0.93（图 2.5.6）。这种水平的共识表明，自动评分可以作为一种合理的替代方案，但基准测试的编写者建议，对于高风险结果，仍应进行人工验证。

经过验证的评分方法，基准测试结果揭示了模型之间的差距（图 2.5.7）。Aletheia 以 91.9% 的得分领先，其次是 Gemini 3 Deep Think（76.7%）和 Gemini Deep Think（IMO Gold）（65.7%）。之后，得分明显下降。GPT-5.2 思维（高）达到 35.7%，Gemini 3 Pro 得分 30%，GPT 从5.1% 降至 7.1%。最高分和最低分之间的差距约为 85 个百分点。IMO-Bench 论文中按题目来源进行的分析表明，部分分数可能反映的是考生对现有竞赛题目的熟悉程度，而非一般的推理能力，这与 MathArena 的情况类似。给出正确答案和给出严谨的证明是截然不同的任务，大多数模型在前者上的表现远胜于后者。

图 2.5.6

图 2.5.7

金融

本节介绍用于评估AI系统在金融特定任务上表现的基准测试。与通用推理基准测试不同，这些测试要求模型能够处理特定领域的语言，从财务文件中提取结构化信息，在税法、抵押贷款流程和财务分析等领域应用专业判断。

TaxEval

TaxEval v2 基准测试用于测试模型处理复杂税务相关问题的能力。它包含超过 1500 道经专家验证的问题，这些问题由税务和金融专业人士参与开发，涵盖数值推理、语义分析、问题解决和合规规则应用。模型的评分基于两个维度：答案是否符合事实，以及逐步推理是否清晰且符合专家水平。

TaxEval v2 的表现显示，各模型之间的差异很小（图 2.5.8）。排名前 15 的模型得分均在 3 个百分点的范围内，从 77.1%（Claude Sonnet 4.6）到 74%（Claude 3.7 Sonnet Thinking）。

图 2.5.8

MortgageTax

MortgageTax评估模型从真实的抵押贷款税单中提取结构化信息的能力，同时使用文本和文档图像。该任务涉及两种类型的提取：语义提取要求模型识别年份、地块编号和县等字段，而数值提取则需要计算年化应缴金额。数据集包含 1258 份文档，分为公开验证集、私有验证集和预留测试集。

MortgageTax 的得分模式与 TaxEval 类似，排名前 15 的模型集中在较窄的性能区间内（图 2.5.9）。Gemini 3.1 Pro Preview 以 69.4% 的准确率领先，而 GPT 4.1 垫底，准确率为 65.9%，两者相差约 3.5 个百分点。虽然有些 Gemini 模型占据了前列位置，但总体准确率并未达到 70%，这表明模型目前还不能完全或可靠地从文档图像中提取和计算财务信息。

图 2.5.9

CorpFin

CorpFin测试模型能否理解并从冗长、内容密集的金融文档（特别是超过 200 页的信贷协议）中提取信息。测试问题涵盖基本术语提取、数值推理、摘要、交叉引用多个章节以及行业特定解读，所有问题均参考了金融分析师、律师和学者的意见而制定。除了事实准确性之外，该基准测试还评估模型能否理解冗长且充斥着专业术语的法律和金融文本。它定义了三种具有不同上下文设置的任务，即精确页面、共享最大上下文和最大拟合上下文，观察模型在不同文档访问方式下的能力表现。

与其他基准测试类似，CorpFin v2的性能也高度集中（图 2.5.10）。Kimi K2.5 以 68.26% 的准确率领先，GPT 4.1 以 63.05% 的准确率垫底，两者相差约 5 个百分点。与 MortgageTax 一样，没有模型的准确率超过 70%。

图 2.5.10

Finance Agent

Finance Agent测试由斯坦福大学研究人员、全球系统重要性银行（G-SIBs）和行业专家合作开发，金融Agent评估AIAgent执行入门级金融分析师典型任务的能力。它包含 537 个精心设计的问题，测试信息检索、市场调研和财务预测等技能。

开启金融Agent v1.1与其他金融基准测试相比，其表现差异更大（图 2.5.11）。Claude Sonnet 4.6 以 63.33% 的准确率领先，而 Kimi K2.5 的得分则降至 50.62%，两者相差约 13 个百分点。即使是最高分也低于三分之二的准确率，这反映了其他金融基准测试中存在的领域特定挑战，以及Agent任务的普遍难度。

图 2.5.11

法律

研究人员还评估了AI在解决法律领域任务上的性能，任务范围涵盖从解读法院判决到将规则应用于新的事实模式。下文所述的基准测试反映了模型在处理需要基于特定文件而非一般知识的法律推理任务时的表现。

CaseLaw

CaseLaw v2是用于评估 LLM 模型在真实诉讼和法律研究任务中表现的基准测试。它使用近期美国和加拿大法院的判决，这些判决的日期晚于大多数模型的训练截止日期，由于许可限制无法大规模获取，这有助于确保模型能够基于提供的文档进行推理，而不是依赖于记忆的法律知识。该基准测试包含 300 个验证测试和 104 个测试测试，涵盖单案例和多案例推理，涉及七个法律推理维度，包括检索关键先例、多文档问答、计算、表格和时间顺序推理。

GPT-5.1 在 CaseLaw v2 测试中以 73.4% 的准确率领先，其次是 GPT-4.1，准确率为 69.9%（图 2.5.12）。其余排名前 15 的模型准确率在 62% 到 66% 之间，这表明模型仍有很大的改进空间。反复出现的问题是模型往往依赖于通用知识，而不是基于所提供的文档来给出答案，即使明确指示它们这样做也是如此。

图 2.5.12

LegalBench

LegalBench是众包的法律推理基准测试，任务模拟真实的法律工作。它不测试一般性问题的回答能力，而是侧重于仔细阅读、发现问题以及将规则应用于事实。该基准测试涵盖六种类型的法律推理，包括问题发现、规则回忆、结果预测、规则应用、法律文本解释和修辞理解。以下结果反映了截至 2026 年初的模型性能。

在排行榜结果中，排名前 15 的模型得分均高于 83%（图 2.5.13）。整体表现最佳的是 Gemini 3.1 Pro Preview (2/26)，准确率为 87.4%，其次是 Gemini 3 Pro (11/25)，准确率为 87%。所有 15 个模型的总差距约为 4 个百分点，范围很窄，难以区分它们。

图 2.5.13

2.6 AI Agent

Agent基准测试用于检验AI模型能否超越简单的回答问题，在真实环境中完成多步骤任务。这些任务通常涉及软件导航、工具调用、文件管理或与网站和数据库交互。更复杂的任务可能需要智能体协调整个工作流程，跨多个工具和系统进行协作以达成目标。例如，智能体可能需要在一次对话中完成数据库搜索、策略规则应用以及客户记录更新等操作。除非另有说明，以下报告的结果反映的是截至 2026 年初的模型性能。

GAIA

GAIA是Meta于 2024 年 5 月推出的通用AI助手基准测试。它测试模型能否处理称职的助手需要回答的多步骤现实中的问题，这些问题通常需要网页浏览、文件处理以及跨多个来源进行推理。

GAIA的准确率从 2025 年 1 月的约 20% 上升到 2025 年 9 月的 74.5%（图 2.6.1）。人类基线准确率为 92%，两者相差约 17.5 个百分点。

图 2.6.1

OSWorld

OSWorld 是可扩展的真实计算机环境，用于评估跨 Ubuntu、Windows 和 macOS 等操作系统的多模态AIAgent在开放式任务上的表现。它包含 369 个任务，涉及桌面和 Web 应用程序、文件操作以及多应用程序工作流程。计算机科学专业的学生大约可以解决 369 个任务。

这些任务中有 72% 的任务平均耗时约两分钟，而历史上最强大的模型也仅能达到 1%–12% 的成功率，尤其是在涉及图形界面和多应用程序工作流程的任务上。

然而，最近差距已大幅缩小，Claude Opus 4.5 在跨多个页面配置内容的准确率方面领先OSWorld 准确率达到 66.3%（图 2.6.2）。这意味着最佳模型与人类表现的差距仅为 6 个百分点。这是本节介绍的基准测试中，模型与人类差距缩小速度最快的基准之一。

图 2.6.2

WebArena

WebArena 是用于评估自主网络Agent的真实网络环境，它引入了 812 个以自然语言意图编写的长期任务，例如查找信息、浏览网站等。

WebArena 不比较操作轨迹，而是通过验证网站的最终状态（包括数据库、页面内容和 URL）来检查Agent是否真正实现了其目标。

WebArena 的成功率从2023年的约15%稳步增长到2026年初的74.3%（图2.6.3）。目前，最佳模型与人类基准水平（78.2%）的差距仅为4个百分点。在本节介绍的所有 Agent 基准测试中，WebArena模型与人类表现之间的差距最小。

图 2.6.3

MLE-bench

MLE-bench 评估 AIAgent 的机器学习工程能力。它包含 75 项 Kaggle 竞赛，涵盖多个任务。

在自然语言处理、计算机视觉、信号处理等领域。比赛经过人工精心策划，重新构建了训练集和测试集，重新实现了评分代码，因此智能体可以在本地进行评分，并可直接与 Kaggle 排行榜和奖牌门槛进行比较。MLE-bench，成功率从 2024 年的约 17% 提升至 2026 年初的 64.4%（图2.6.4）。

在如此短的时间内取得如此大的进步，表明端到端机器学习任务的能力正在不断增强，尽管竞赛式问题比大多数现实世界数据科学中常见的开放式工作更具结构性。

图 2.6.4

Cybench

Cybench 是用于评估AIAgent在网络安全领域能力的基准框架。它包含六个夺旗赛类别中的 40 个专业级任务，涵盖密码学、网络安全、逆向工程、取证和漏洞利用。这些任务的难度基于“首次解决时间”，从两分钟到近 25 小时不等，与人类实际的解题难度相当，这使得该基准测试的难度上限非常高。

无引导求解率 Cybench 的完成率达到了 93%，高于 2024 年的 15%（图 2.6.5）。这是本节所有基准测试中提升幅度最大的，这可能表明网络安全挑战任务非常适合当前 Agent 的能力。

图 2.6.5

τ-bench

τ-bench 采用了不同的方法，通过测试 Agent 在涉及与用户聊天以及调用外部工具或 API 的现实任务中的表现。它将 Agent 置于零售和航空等真实领域，考虑了底层数据库、策略约束和多轮对话等因素。成功的衡量标准是 Agent 是否产生了正确的最终结果，这通常可以从数据库的最终状态中验证。因此，这不仅是对语言能力的测试，更是对 Agent 在交互式环境中端到端工具使用和规则遵循能力的测试。

τ-bench 上的领先模型在 pass@1 测试中的得分介于 62.9% 和 70.2% 之间（图 2.6.6）。Claude Opus 4.5 以 70.2% 的得分领先，其次是 GPT 5.2（69.9%）和 Qwen3.5（68.4%）。前七名模型的得分差距很小，只差 7.3 个百分点，没有模型超过 71%，这表明即使对于前沿模型而言，在正确使用工具和遵循策略约束的同时管理多轮对话方面仍然具有困难。

图 2.6.6

2.7 机器人与自主运动

2.7.1 机器人

RLBench

RLBench 是机器人操作基准测试，它使用 100 次演示，在包含 18 个标准化任务的数据集上测试 Agent。每个任务都包含不同的操作挑战，例如拾取物体、堆叠物品或操作简单的机械装置。

截至 2026 年 1 月，在 18 项任务的 RLBench 子集上表现最佳的方法是EquAct的平均成功率达到了 89.4%，而之前的领先者 SAM2Act 的平均成功率为 86.8%（图 2.7.1）。EquAct 在引入完整 3D 旋转变化的更复杂评估设置下也表现出更强的性能，而之前的方法在这种设置下性能往往会下降。尽管基准测试是在受控的模拟环境中测试相对较短周期的任务，但其成功率已从 2022 年的约 48% 稳步提升至 2025 年的近 90%。

图 2.7.1

BEHAVIOR-1K

BEHAVIOR-1K 是围绕真实人类需求构建的模拟基准测试。这些任务来自调查，调查询问人们希望机器人帮助完成哪些家务，最终形成了 1000 个真实的活动。这些是在模拟家庭环境中进行的长距离移动操作挑战，用于弥合当前研究与以人为中心的应用之间的差距。

2025 年的 BEHAVIOR 挑战赛结果表明，这些任务仍然非常困难（图 2.7.2）。排名第一的团队 Robot Learning Collective 在预留测试集上取得了约 26% 的 Q 分数，这意味着它仅以可接受的质量完成了所需任务目标的四分之一。完整任务成功率甚至更低，排名第一的团队仅达到 12.4%。这些分数清楚地表明，在真实环境中可靠地执行家庭任务仍然超出了当前的能力范围。

图2.7.2

ResponsibleRobotBench

大多数机器人基准测试衡量模型是否能够完成任务。ResponsibleRobotBench 衡量在包含真实危险的环境中是否能安全完成任务。该基准测试围绕 23 个多阶段任务构建，涉及电气、火灾/化学和人为危险。为了安全完成任务，机器人必须检测风险、进行安全推理、规划安全行动，并在必要时请求人类协助。绩效通过安全成功率来衡量，只有当任务完成且安全条件均满足时，才将任务视为成功。

GPT-4o 取得了最佳结果，安全得分为 0.64，优于 GPT-4o mini 的 0.40 和最强的开源模型 Qwen-72B 的 0.35（图2.7.3）。即使是最佳模型也未能完成超过三分之一的任务能够安全完成，但当任务完成和安全必须同时满足时，则经常出现失败。

图 2.7.3

2.7.2 人形机器人

正如去年的AI指数报告所述，随着 Figure AI、特斯拉和波士顿动力等公司推出新的硬件产品，人形机器人在 2024 年开始引起广泛关注。2025 年，该领域持续发展，可用的人形机器人平台数量和种类显著增加（图 2.7.4）。最强劲的信号来自早期工业试点项目和大规模生产计划，而非广泛部署。例如，Figure AI 的 Figure 02 机器人在南卡罗来纳州一家宝马工厂的生产线上运行了 11 个月，累计运行时间超过 1250 小时，为超过 3 万辆汽车装载了超过 9 万个零件。中国的 Unitree 和 AgiBot 等供应商降低了价格，提高了产量，将人形机器人定位为准消费级硬件产品，而不是定制的研究系统。多家公司正将目光投向家庭环境，开发人形机器人。挪威的 1X 公司已开放其售价 2 万美元的家用机器人的预购名单。

总体而言，硬件供应和投资活动正处于快速增长阶段，而非广泛部署阶段。大多数公司里程碑都以未来时态设定，交付时间表也如此；提供的是预期用例，而非经过验证的运行数据。目前尚不清楚人形机器人的需求是否能与当前的产能相匹配，大规模应用后的客户群体会是谁，以及这些平台从结构化的工厂试点项目过渡到非结构化环境的速度如何。

图2.7.4

物理AI与机器人基础模型

人们需要帮助的大部分事情都发生在物理空间中，从工厂组装产品到协助完成家务。AI要想发挥作用，就不能仅仅处理屏幕上的文本和图像。它必须感知周围环境，推断物体的行为方式，通过物理实体根据这些判断采取行动。

AI面临的最大挑战是那些需要在真实世界中运行的基准测试，因为真实世界环境不可预测，任何错误都会造成实际后果。本节前面提到的机器人基准测试就体现了这种难度。传统机器人通过运行固定程序执行固定任务来规避这个问题，但环境瞬息万变，这种方法随时可能失效。

越来越多的研究试图通过赋予机器人与推动语言和视觉领域发展的通用AI相同的能力来弥合这一差距。视觉-语言-动作模型（VLA）用单一的网络取代了传统的视觉、规划和行动的独立模块流程，该网络直接从摄像头输入和语言指令到电机控制。

物理智能的 π0 和 π0.6 展示了这种方法，它们可以在不同的机器人平台上执行折叠衣物等此类任务，而无需针对特定任务进行重新训练。英伟达的 GR00T 模型和 Gemini Robotics 也采用了类似的技术，训练单个模型来控制不同机器人执行不同的任务。

然而，最大的限制是数据。语言模型需要使用来自互联网的数十亿页文本进行训练。每条机器人训练数据都需要一个实际的机器人执行任务或进行高保真度的仿真，而这两种方法都既耗时又昂贵。世界基础模型（WFM）是一种解决方案，它生成合成物理数据，使机器人无需进行物理试验即可学习。英伟达的 Cosmos 就是例子。但 VLA 技术仍处于研究阶段，这些模型在受控环境下的表现与它们在现实世界中实际能够处理的情况之间仍然存在巨大差距。

自动驾驶汽车

在多个市场，自动驾驶汽车的研发已超越研究阶段，商业服务现已大规模运营。本节追踪部署趋势、基准测试和数据集的技术创新，以及通过事故报告数据评估的安全性。本节的数据主要集中在美国，其次是中国。虽然 Mobileye、Vay 和 Wayve 等欧洲的自动驾驶汽车运营商活跃于市场，但可比的行程或部署数据尚未公开。中国的数据也有限，百度旗下的 Apollo Go 是少数几个公布详细乘客数据的服务之一。

部署

2025年自动驾驶汽车部署加速，美国和中国均实现增长。2025年底，Waymo 运营大约2500辆全自动无人驾驶出租车已在美国主要城市投入使用，包括凤凰城、旧金山、洛杉矶、奥斯汀和亚特兰大。记录每周约 45 万次出行。仅在加利福尼亚州，每周付费出行次数就从 2023 年年中的几乎为零攀升至 2025 年底的约 283,880 次，并在 2025 年 2 月之后出现快速增长（图 2.7.5）。规模较小的运营商 Zoox 于 2025 年底开始出现在加利福尼亚州的试点出行数据中（图 2.7.6）。在中国，百度的 Apollo Go 到2025年，自动驾驶网约车服务提供了约1100万次完全无人驾驶的出行服务，同比增长175%（图2.7.7）。该服务的出行次数已从2022年的150万次增长到2025年的1100万次，反映出其使用量的快速增长。

图 2.7.5

图2.7.6

图2.7.7

技术创新与新基准

自动驾驶的技术格局正在发生多方面的变化。基准测试正围绕端到端驾驶排行榜进行整合，例如 Waymo 的 2025 年开放数据集挑战，该排行榜强调基于视觉的方法，越来越注重长尾案例的泛化能力。大型多传感器数据集也变得越来越重要。英伟达的 PhysicalAI 自主车辆数据集包括涵盖各种天气、地理环境和罕见事件的多摄像头、激光雷达和雷达数据。在模型层面，结合推理和行动的方法正日益受到重视。Alpamayo 1 视觉-语言-动作模型（VLA）专注于轨迹质量和可解释推理，同时在实际驾驶的安全性和延迟限制下运行。多模态推理基准是也在不断发展，现在评估的是多视角空间推理和逐步驾驶逻辑，而不仅仅是最终答案的准确性。更广泛地说，世界模型和强化学习正在超越单纯的模仿式端到端驾驶，因为这些方法能够更好地泛化到训练期间未遇到的交通场景。

过去十年，可用驾驶数据的规模也显著增长（图 2.7.8）。2012 年至 2019 年间发布的早期基准测试数据时长仅为个位数小时。2019 年 Waymo 的开放数据集带来了约 500 小时的数据量，随后是 2024 年的 nuPlan 和 2025 年 Nvidia 的 Physical AI-AV，数据量均约为 1600 小时。然而，仅凭时长并不能反映数据质量或内容的差异。模拟驾驶数据与真实道路上真实车辆的驾驶数据并不相同，即使两者的数据时长相同。因此，该图表最好解读为数据量趋势，而非基准测试之间的直接比较。

图 2.7.8

安全

关于事故报告的常设一般命令是美国国家公路交通安全管理局 (NHTSA) 的一项强制性规定，要求制造商和运营商报告涉及自动驾驶系统（ADS）或 SAE 2 级高级驾驶辅助系统（ADAS）的某些事故。

该命令于 2021 年首次发布，并分别于 2021 年、2023 年和 2025 年进行了修订，为 NHTSA 提供了一致的事故数据，以便调查事故并执行安全要求。

自 NHTSA 于 2021 年中期开始收集数据以来，每月报告的 ADS 事故总体呈上升趋势，从最初几年的每月约 10 – 25 起增加到每月经常超过 80 起。

在 2024 年底和 2025 年（图 2.7.9），按公司划分，Waymo 占报告事件的最大份额，这与其更大的部署规模相符。包括福特、May Mobility 和 Transdev Alternative Services 在内的其他运营商报告称，事故数量更低且更稳定。

由于缺乏与人类驾驶的对比基准，原始事故数量难以解读。Waymo 公布了其仅载客的事故率与覆盖相同里程和区域的人类驾驶基准事故率的对比数据（图 2.7.10）。Waymo 报告的事故率，无论是任何受伤事故（图 2.7.11）还是更严重的安全气囊弹出事故（图 2.7.12），均低于人类驾驶基准事故率。差距最大的是车辆交叉路口事故，人类驾驶基准事故记录了 198 起，而 Waymo 仅为 8 起。这些数据来自 Waymo 截至 2025 年 9 月的安全报告，应据此解读。

图2.7.9

图2.7.10

图2.7.11

图2.7.12

【公益译文】2026年AI指数报告（四）

2.5 特定领域的能力表现

2.6 AI Agent

2.7 机器人与自主运动

作者