二 技术能力
AI模型发展迅速,在语言、推理、编码和数学等各项基准测试中的得分均有所提升。评估的速度已经跟不上衡量模型的发展速度,基准测试的可靠性也日益受到质疑。顶级模型之间的差距正在缩小这一趋势日渐明显,差距的缩小也体现在地域上,美国和中国顶级模型之间的差距几乎完全消失。模型能力不再是明显的区分因素,模型之间的竞争转向成本、可靠性和实际应用价值。在专业领域,税务、法律和公司财务方面的评估显示,某些领域的表现优于其他领域。AI模型的功能范围也在不断扩大,AI Agent正在不断改进,但仍然大约有三分之一的任务会失败。视频生成模型不再仅仅生成逼真的内容,有些模型开始学习现实世界的实际运作方式,这一进步有助于将AI应用于物理空间,但这种转变仍处于早期阶段。
在非结构化环境中,自动驾驶车辆是一个值得注意的例外,机器人已经实现了大规模部署,拥有早期安全实践案例。总的来说,AI的技术进步十分迅速,发展速度快于评估、治理和框架采用的速度,令人无法想象。
2.1.整体能力趋势
本节探讨AI能力模式,评估用于衡量能力进展的工具本身存在的不足。为了便于比较不同的评估任务,能力指标被缩放到一个共同的参考点。AI指数团队开发的缩放方法校准了每个基准,使得特定年份能力表现最佳的模型以该任务既定人类基准的百分比来衡量。例如,在这种方法中,105%的值表示模型能力比人类基准高出5%。本分析中包含的基准测试代表了可以进行结构化评估的任务,可能无法完全涵盖实际AI部署所需的全部能力。
- 技术能力基准与人类能力对比
2025年,模型能力在广泛的基准类别中持续提升,其中一些提升幅度最大的任务,在几年前还远低于人类基准能力(图2.1.1)。ImageNet、SuperGLUE和MMLU等前沿模型现在在长期运行的基准测试中达到或超过了既定的人类能力水平。自去年的报告发布以来,有些用于测试更高级推理能力的基准测试已经达到或接近人类基准水平,包括博士级科学问题(GPQA Diamond)、多模态推理(MMMU)和数学推理(AIME)等。在自主软件工程(SWE-bench Verified)和Agent多模态计算机使用(OSWorld)领域,模型的能力仍然低于基准水平,但改进速度正不断加快。例如,在SWE-bench Verified测试中,模型能力从2024年的约60%提升至2025年的近100%。
图2.1.1
- 封闭权重模型与开放权重模型
过去三年,领先的封闭权重模型和开放权重模型之间的能力差距一直在变化,开放权重模型时而缩小差距,时而又随着新的专有模型的发布而落后(图2.1.2)。2023年5月,封闭权重模型GPT-4-0314在Arena排行榜测试中比最佳开放权重模型Vicuna-13B高出174分(15.2%)。随着Mixtral、WizardLM和Llama-3.1-405B等能力更强的开放权重模型的发布,到2024年8月,两者的差距缩小至仅7分(0.5%)。过去一年,随着o1-preview和Gemini 2.5 Pro等新型封闭权重模型的问世,这一趋势发生了逆转。截至2026年3月,封闭权重模型Claude Opus 4.6(1503分)领先开放权重模型GLM-5(1454分)49分(3.4%)。虽然封闭权重模型仍然领先,但开放权重模型的竞争力远胜于几年前。
图2.1.2
- 美国与中国技术能力对比
美国的显著领先优势在2025年初大幅缩小,此后差距一直保持在较小范围内(图2.1.3)。2025年2月,中国的模型DeepSeek-R1得分为1400,美国的模型o1-2024-12-17得分为1405,DeepSeek-R1仅落后5个Arena点(0.4%)。截至2026年3月,美国顶级模型Claude Opus4.6得分为1503,中国的顶级模型Dola-Seed-2.0 Preview得分为1464,美国领先39个Arena点(2.7%)。过去一年,差距仅为个位数,甚至接近持平。这种现象尤其值得关注,因为它源于两种截然不同的发展环境和制度背景,包括前文讨论的研究动态和后文即将讨论的投资模式。
图2.1.3
- 前沿模型能力趋于一致
过去一年,前沿模型之间的差距进一步缩小,多家公司在Arena排行榜顶端占据了非常狭窄的能力区间(图2.1.4)。2023年初,OpenAI凭借顶级模型1322分的成绩遥遥领先,而谷歌的顶级模型得分为1117分。随着谷歌、Anthropic和其他公司发布能力更强大的模型,这一差距在2024年稳步缩小。到2025年2月,DeepSeek一度与Arena排行榜上的美国顶级模型持平甚至超越。在去年的报告中,排名前四的模型分数相差约97分,而截至2026年3月,前四名模型的分数差距已不足25分。Anthropic以1503分领先,其次是xAI(1495分)、谷歌(1494分)和OpenAI(1481分),DeepSeek(1424)和阿里巴巴(1449)的排名仅略微落后。Meta的Arena能力自2025年初以来趋于平稳,反映出其他公司的发布速度有所放缓,但此后可能会有更新的模型推出。随着领先模型在基准测试能力上的差距越来越小,成本、延迟问题、可靠性和特定领域的优化等因素可能会在用户采纳过程中发挥更大的作用。
图2.1.4
- AI基准测试
基准测试仍然是衡量AI技术进步的重要指标,但局限性也更加明显。自去年的报告发布以来,AI指数扩展了分析范围,考察基准测试在哪些方面仍然有效,以及在哪些方面存在不足。
日益增加的不透明性和非标准的提示技术使得模型间的对比评估不可靠,第三方评估也记录了一些案例,模型在独立测试中的表现比开发人员报告的结果更差。而且模型在训练过程中接触测试集数据时,可能会导致分数虚高。2025年,Meta公司因Llama4模型使用专门的变体进行优化以提高排行榜排名,可能使用基准测试数据进行训练而受到批评,但Meta公司否认了这些说法。此外,对广泛使用的基准测试的审计表明,许多基准测试仍然构建不佳文档不足,没有统计显著性报告,也没有复现脚本。即使基准测试分数在技术上有效,强大的基准测试能力也并不总是能转化为实际应用价值。
去年的报告还强调了对更复杂、交互式的智能形式进行基准测试的难度,而这对于当前的AI模型而言更为重要。尽管已经提出了许多针对多智能体协调、人机交互、工具使用智能体和现实世界机器人的基准测试,但这些领域仍不成熟。实际任务涉及不可预测的环境、多样化的硬件以及一系列有效的评估方法,难以进行重复评分,这些领域本身就更难标准化。
基准测试还出现了许多新问题。首先,越来越多的人主张采用能够衡量人机协作,而非孤立地衡量模型能力的评估方法。大多数广泛使用的基准测试是在无人参与的情况下测试模型,但许多实际部署都涉及人员监督、指导和整合模型的输出。最近的研究表明,该领域应该采用半人马评估,即人类和模型共同解决任务的评估方法,这种方法更能反映实际使用情况,能够衡量传统基准测试所忽略的以人为中心的特性,例如可解释性和实用性。
其次,出现了一些新的方法解决无效的基准测试问题。斯坦福大学研究人员的一项综述确定了九个广泛使用的基准测试中无效问题的比例,错误率从MMLU Math的2%到GSM8K的42%不等(图2.1.5)。Truong等人引入了框架,使用对响应模式的统计分析来标记问题项,供专家审查,准确率高达84%。此外,有人提议转向基于同行的“证书级”评估框架,框架包含社区管理、监考系统,具有安全的环境、不断更新的测试题和延迟公布结果的功能。
图2.1.5
第三,人们对诸如Arena等主流公共基准测试平台的可靠性提出了质疑。最近的一项分析认为,平台动态可能会影响排名准确性。
如果提供商能够在公开记录之外迭代或交换模型变体,则会引入选择效应,使比较变得不直接。该研究还指出了数据访问的不对称性,表明额外的Arena式交互数据可以提高基于Arena的评估的能力,这表明排行榜排名可能部分反映了模型对平台的适应性,而不仅仅是通用能力。
最后,虽然能力评估很普遍,但对社会影响的评估仍然分散且不完整。研究发现,开发人员对偏见和环境影响的报告往往很少且呈下降趋势,而第三方研究人员则更严格地评估有害内容和能力差异等危害。只有开发人员才能披露有关数据、劳动实践和训练基础设施的关键信息,目前的评估实践虽然能够很好地展现模型的功能,但对其社会后果的描述却远不及前者。
2.2.语言
语言理解和生成仍然是现代AI模型的基础能力。本节分析模型在需要理解复杂文本、生成连贯响应以及执行专门的基于语言的操作等任务上的能力表现。基准测试评估的范围涵盖通用问答以及函数调用和文本嵌入等特定技术能力。
- 理解
语言理解基准测试衡量模型在理解和推理各领域的文本方面的能力,涵盖人文科学和高度技术性材料等。随着能力的提升,评估已转向使用更难的测试,不易受到熟悉度或记忆的影响。目标是追踪模型的改进方向,而不是达到当前基准测试工具的上限。
- 大规模多任务语言理解(MMLU)
MMLU仍然是衡量跨学科广度知识水平的常用指标。该指标于2024年推出。MMLU-Pro基准测试使用超过12000道题目和十选多的多选题形式来评估模型能力,更好地测试推理能力。这种扩展的题库对模型能力评估产生了可衡量的影响。与原版相比,MMLU基准测试在MMLU-Pro上,模型准确率通常会下降16%–33%,使顶级模型之间的区分度更高。例如,GPT-4o和GPT-4-Turbo在标准MMLU上的准确率差距约为1%,但在MMLU-Pro上,差距为9%。新的基准测试降低了对提示词的敏感性,加强了推理能力的评估。此前,MMLU对提示词变化的敏感性约为4%–5%,而MMLU-Pro的敏感性估计为2%。此外,思维链等推理方法在MMLU-Pro上的表现往往比直接回答策略好得多。
截至2026年初,顶级模型MMLU-Pro上的能力表现呈现高度集中的趋势,排名前15的模型得分均高于87%(图2.2.1)。谷歌的Gemini-3.1-Pro以91.2%的得分领先,其次是Gemini-3-Pro(Thinking),得分为90.1%,GPT-o1得分为89.3%。采用思维策略的模型往往排名更高,优于标准模型,后者得分集中在87%至88%之间。排名第1的模型与排名第15的模型之间的整体差距仅略高于4个百分点,这表明在广义知识任务上,模型之间的竞争异常激烈。
图2.2.1
- 生成
生成基准测试侧重于模型输出的质量,考察清晰度、实用性、指令遵循性和风格。与知识风格测试不同,这些评估通常依赖于人类判断,因为某些维度具有主观性,取决于提示词和用户。基于偏好的测试有助于衡量这种主观性,是对传统基准测试的有效补充,可用于跟踪模型在实际环境中的表现。
- Arena排行榜
Arena(原名LMArena)是交互式平台,拥有社区驱动的排名系统,用户可直接比较大型语言模型(LLM)在相同提示下的输出,投票选出他们更喜欢的模型。评估过程采用盲法,以最大限度地减少对特定模型提供商或架构的偏见。该平台通过汇总数千次比较,生成Elo等级分,这是一种借鉴自国际象棋的排名系统。这种方法强调用户体验和实用性,能够捕捉结构化基准测试无法捕捉的模型质量方面,如:人类对实际任务的判断。
以用户为中心的方法确实存在局限性,偏好可能与正确性不一致,也可能无法完全代表模型的使用案例或上下文。Singh等人强调了潜在的偏差来源,例如顺序偏差、长度偏差或风格偏好,这些偏差与输出准确率无关。如前所述,Arena等评估可以提供补充视角,而并非是对模型质量的绝对评分。
截至2026年初,Text Arena上的Elo评分非常集中,排名前15的模型大致分布在46分(图2.2.2)。Claude-Opus-4-6-Thinking以约1510分领先,其次是Gemini-3.1-Pro-Preview。排名越往下,差距越小,许多模型的置信区间也越重叠。因此,Anthropic和谷歌的模型在排名靠前的位置均有出现,但没有哪个模型能够处于完全领先的位置。
图2.2.2
- 专门语言任务
除了基本的理解和生成能力之外,语言模型还需要处理一些任务,才能使其适用于实际部署。已部署应用程序中的三个关键能力是检索增强生成(RAG)、函数调用和文本嵌入。用于跟踪这些能力的基准测试尤为有用,可以测试模型的流畅性以及模型是否能够作为大型系统的一部分运行。能力不仅取决于基础模型,还取决于检索质量或输出的解析和执行方式等因素的场景下比较模型。
- 检索增强生成(RAG)
检索增强生成(RAG)为模型提供了一种方法,使其能够提供超出训练期间编码在模型参数中的知识的准确、最新的信息。在推理阶段,RAG系统使用从外部来源检索的信息来增强模型响应。标准的RAG基于查询相似性检索单个文本块,在回答需要跨文档综合信息的问题时可能会遇到困难。为了解决这个问题,微软研究院在2024年推出了Graph RAG技术,通过将源材料构建成知识图谱并生成能够捕捉高价值信息的摘要,从而针对查询输出更有效的响应。其他延伸技术则侧重于改进多步骤检索或在生成之前对段落进行重新排序。这些架构选择需要在答案质量、延迟和成本问题之间进行权衡。
上下文窗口对RAG技术具有重要意义,扩展的上下文窗口可以支持检索更多内容,但模型必须在整个窗口中可靠地解析信息,所以并不能保证模型能力会更强。
- 伯克利函数调用排行榜(BFCL)
函数调用允许模型通过生成结构化请求使用外部工具和API,这些请求可以由其他系统运行,将结果返回响应中。这是代理框架的一项基础功能,在这些框架中,模型需要执行操作或检索超出训练数据的信息。
伯克利函数调用排行榜(BFCL)评估模型的函数调用能力,自最初发布以来发生了显著变化。早期版本更侧重于单轮函数调用,而当前BFCL V4将重点转移到整体代理评估上。Agent任务占总分的40%,多轮交互占30%,其余部分则分为实时、非实时和幻觉类别。Agent组件测试网络搜索和记忆能力,而多轮组件评估多步骤对话。
截至2026年初,BFCL的总体准确率差异很大。排名前15的模型准确率相差约21个百分点(图2.2.3)。Claude模型占据了前6名中的3个席位,其中Claude-Opus-4.5以77.5%的准确率领先。评估模式也会影响能力,体现了通用能力和特定任务优化之间的权衡。例如,Grok-4-0709在提示模式下得分为63%,但在使用函数调用模式时下降到61.4%,而 Grok-4-1的快速推理模型的得分(69.6%)高于非推理模型(58.3%)。
图2.2.3
- 大规模文本嵌入基准测试(MTEB)
大规模文本嵌入基准测试(MTEB)评估不同嵌入模型在一系列需要语义理解的任务中的表现。它包含超过50个数据集,涵盖八个任务类别,使得模型更难通过优化单一用例而非在不同场景下表现良好以展示更强大的能力。
2022年以来,MTEB(English v2)上的最高平均任务得分稳步上升,这与大规模预训练技术在嵌入模型中的广泛应用相吻合。2025年,最高分达到76分,比2023年提高了约11分(图2.2.4)。但即使是最好的模型也未能获得满分。
图2.2.4
- 长上下文窗口与深度理解能力之间的差距
2023年年中以来,上下文窗口每年增长近30倍(图2.2.5)。曾经只能处理几千个词元的模型现在可以处理一百万个甚至更多。在处理能力极限下,这相当于一次处理多本书或整个代码库。长上下文基准测试Fiction.liveBench(用于衡量叙事理解能力)和MRCR(用于衡量多针检索能力)可评估领先模型达到80%准确率所需的输入长度。在九个月内增长速度甚至更快,大约增长了250倍。但更大的上下文窗口并不意味着更深入的理解,因为可接受的上下文长度和可用的上下文长度之间的差距很大。
最近的研究指出,造成这种差距的原因有很多。在长上下文的专家级基准测试(LongBench v2)中,人类专家在15分钟的时间限制内仅取得了53.7%的准确率,而最佳模型的准确率为57.7%。与结构化基准测试中模型超越人类基线相比,这一差距很小,也反映了深入理解长篇输入文本的难度。被要求逐步推理文本的模型表现优于被要求立即回答的模型,这表明模型处理长文本的方式与它能够接受的文本量同样重要。其他研究发现,模型能够很好地处理简单的查找任务,但在被要求查找多个匹配信息或在非常长的文档中应用条件时则表现不佳,而这类任务对于阅读相同文本的人类来说是轻而易举的。如果引导模型逐一检查,它们可以完成任务,但这种方法速度慢且成本高。输入越长,实际成本越高,例如响应时间变慢、运营成本更高,以及对输入中后期出现的信息的准确性降低。
对模型的长上下文能力的衡量和评估仍然较为困难。模型在长上下文测试中得分很高时,无法完全确认模型是否真正处理了全部输入,还是仅仅依赖于它已有的知识。Yang等人引入了区分这两个因素的指标,发现模型排名发生了很大变化。例如,一个在原始分数中排名第7的模型,在仅衡量长上下文能力时排名第1。因此,区分模型是否能够更好地处理长输入,而不是是否具有更强的整体能力,这一点非常重要。如果上下文窗口大小与有效利用之间的差距变得更加精确,模型或许能够更好地处理持续数小时甚至数天的任务,维持更长的推理链。开发能够可靠地区分真正的长期情境能力和一般模型能力的评估方法,对于跟踪这一进展并确保基准提升反映真正的改进至关重要。
图2.2.5
2.3.图像和视频
除了语言之外,许多模型还能处理视觉输入,它们的视频和图像处理能力也取得了显著进步。本节将分析模型在理解各个维度上的能力,模型如何能够理解和分析视频内容,分析模型的生成过程,从而评估模型生成的图像和视频的质量。
2.3.1.理解
视频理解基准测试衡量模型跨帧跟踪动作、物体和事件的能力,而不是对单幅图像进行推理。随着早期基准测试能力的提升,评估重点已转向需要多步骤时间推理和将领域特定知识应用于视频的任务。
- MVBench基准测试
MVBench基准测试用于评估多模态模型能否超越静态图像理解,处理视频的复杂性,包括解释运动、时间序列以及帧间上下文的变化。MVBench专注于时间推理,成为在更动态的视觉环境中跟踪能力的有效基准。
MVBench上表现最佳的模型平均准确率达到74.1%,JT-VL-Chat和JT3.5并列第1(图2.3.1)。2026年初,排名前15的模型能力相差约23个百分点。VideoChat2的平均准确率最低(51.1%),而VideoChat2的其他版本模型则处于中间水平(60%–65%)。
图2.3.1
- Video-MMMU基准测试
Video-MMMU是大型的多模态、多学科基准测试,用于从教育视频中学习,包含300个专家级视频,平均时长约为506秒,涵盖6个学科和30个主题。每个视频都配有3组问题,逐步深入地测试理解程度。感知类题目测试模型能否从文本或音频中提取关键细节,理解类题目测试模型是否掌握概念或解题策略,适应类题目要求模型将这些知识应用于实际的新场景。适应性问题会复用STEM领域的MMMU/MMMU-Pro题项以及艺术或人文领域的特定案例研究,因此模型必须超越特定视频的范畴。Video-MMMU基准测试还引入了Δknowledge指标,用于跟踪模型在处理视频后能力的提升幅度。
针对Video-MMMU的总体准确率情况,截至2025年,尚无模型达到人类基线水平74.4%(图2.3.2)。表现最佳的模型Keye-VL-1.5-8B得分66%,其次是Claude-3.5-Sonnet(65.8%),得分最低的是VILA1.5-8B,为20.9%,排行榜上的模型准确率差距高达45个百分点。
Δknowledge指标的结果进一步揭示了人类学习与模型学习之间的差距(图2.3.3)。人类专家在观看视频后知识水平提高了33.1个百分点,而表现最佳的模型GPT-4o仅提高了15.6个百分点,仅为人类专家的一半。约三分之一的模型甚至出现了负的Δknowledge值,因为它们在处理视频后能力实际上有所下降。
图2.3.2
图2.3.3
2.3.2.生成
上述基准测试评估模型对现有视觉内容的解读能力,而生成基准测试则评估模型生成内容的能力。生成的视频必须满足连贯性、真实性和可控性等主观期望和技术标准,所以该评估方法涵盖人类偏好排名以及自动化质量指标。其中,可控性成为尤为重要的关注点,它反映了模型能否在保持自然运动和场景动态的同时,遵循用户意图。这也使得视频生成更接近于世界模型的概念,在世界模型中,模型可预测视觉场景如何随时间演变。
图2.3.4
- Arena视觉测试
Arena平台还包含Arena视觉测试,它将前文所述的基于Elo评分的盲测方法应用于语言模型,同样应用于图像生成模型。人类偏好是图像生成的重要信号,美感和视觉连贯性等特质仅靠自动化指标难以捕捉。
截至2026年初,谷歌的Gemini模型占据了前6名中的4个席位,其中Gemini-3-Pro以约1285 Elo评分领先,其次是它的另一个版本(图2.3.5)。与语言评估类似,排名后三分之二的模型的置信区间存在重叠,它们的评分都在1230到1260之间,相差30分。
图2.3.5
- Video-Bench基准测试
Video-Bench基准测试是与人类评价相符的视频生成基准测试,它从视频条件匹配度和视频质量两个维度对模型进行评分。该测试采用基于多级逻辑模型(MLLM)的评估程序(GPT-4o),结合少样本评分和链式查询提示,获得更精确的结果。与以往基于指标或基于逻辑逻辑模型(LLM)的基准测试相比,该测试的评分与人类评价的相关性更高。
截至2026年初,Gen3和Kling在视频质量方面处于领先,Gen3在所有关键指标上的得分最高,包括图像质量、美学质量、时间一致性和运动效果,而Kling总体排名第2(图2.3.6)。运动效果是几乎所有模型中最弱的子维度。
图2.3.6
- VBench-2.0基准测试
VBench-2.0是与人类评价相符的全面基准测试,用于评估视频生成模型的内在真实性,定义为对现实的全面遵循,而不仅仅是视觉上的逼真。VBench-2.0从人体动作与结构、创造性、可控性、物理规律和常识推理五个主要维度对模型进行评分。该基准测试以人类偏好标签为锚点,结合基于VLM/LLM的分析、专用检测器以及目标明确的提示词集。这种以真实性为导向的方法非常重要,它反映了生成的视频在符合物理规律和场景一致性等方面是否经得起推敲。
在2026年初评估的所有模型中,没有模型的总分超过67%(图2.3.7)。Veo3以66.7%的得分领先,比排名第2的模型Vidu Q1(62.7%)高出约4个百分点。与其他基准测试的评分情况相似,有些模型的得分非常接近,在58%和60%左右。即使是Kling、CogVideoX和HunyuanVideo等成熟的模型,在处理复杂的故事和一致的对象或场景动态方面仍然面临挑战。
图2.3.7
- 视频生成进展
本节提到的基准测试主要评估视频模式作为内容生成器的能力,从质量、真实性和可控性三个方面进行评分。但近期研究表明,视频生成模型可能发展出超越内容生成本身的能力。
在2025年谷歌DeepMind的一项研究中,研究人员测试了视频生成模型Veo3能否仅使用输入图像和文本提示,解决从未专门训练过的视觉任务。在涵盖超过18000个生成视频的62项定性任务和7项定量评估中,该模型在传统上由专业系统处理的领域展现了零样本能力。这些领域包括感知任务(例如边缘检测和分割)、物理建模任务(例如浮力和刚体动力学)以及操作任务(例如风格迁移和物体提取)。研究人员还观察到了迷宫求解和视觉类比补全等视觉推理的初步能力,他们将其描述为“帧链”,类似于语言模型中的“思维链”推理,模型可能在进行逐帧推理。在所有定量任务中,Veo3的能力均从Veo2持续提升,在某些情况下,其能力达到或超过了专用图像编辑基线模型Nano Banana。
在大多数单个任务上,专用模型仍然优于零样本视频生成,但零样本能力的快速提升和广泛应用表明,其发展轨迹似曾相识。大型语言模型通过在网络规模数据上进行生成式训练来发展通用语言理解能力,而在类似条件下训练的视频模型可能以类似的方法发展通用视觉能力。
2.4.推理
推理基准测试评估模型能否解决需要跨领域和跨格式进行抽象和泛化的问题。随着能力的提升,新的基准测试可区分真正的解决问题能力与由记忆或即时熟悉度驱动的能力。但由于模型在看似流畅的响应中也可能出现错误,人们正加大力度衡量错误率以及推理的局限性。后文将阐述追踪的基准测试中的事实可靠性和错误率。在本节的基准测试中,领先的模型在许多任务上表现出色,但在更困难的任务上仍然存在差距。
2.4.1.通用推理
通用推理指模型运用规则和结合证据来解决陌生问题的能力,而不是依赖领域知识或记忆模式。下文讨论的基准测试涵盖多个领域和任务,旨在测试多步骤推理能力。例如,多位数算术(如长整数乘法)可以测试模型能否执行一致的逐步计算,而不是仅仅生成看似合理的输出。其他更复杂的基准测试则将这一理念扩展到多模态场景,要求模型将文本与图表或图形整合起来才能得出正确答案。
- 面向专家级通用AI的大规模多学科多模态理解与推理基准测试(MMMU)
MMMU基准测试评估大学水平学科题目的多模态推理能力,这些题目结合了文本和视觉元素,例如图表、表格和方程式。执行的示例任务包括从表格中提取约束条件并将其应用于文字题,或者使用图表回答工程或医学等领域的特定问题。
截至2026年2月,模型Gemini 3.1 Pro Preview在MMMU测试中得分88.2%,与最佳人类专家参考值相差不到0.4个百分点(图2.4.1)。其次是Gemini的其他版本,包括Gemini 3 Flash(87.6%)和Gemini 3 Pro(87.5%)。再次是GPT-5.2,得分为86.7%。2026年的模型则落后于它们,Kimi K2.5的得分为84.3%,Claude Opus 4.6(Thinking)的得分为83.9%。
图2.4.1
- 研究生水平的防谷歌搜索问答基准测试(GPQA)
MMMU侧重于多模态推理,而GPQA评估模型对研究生水平问题的解决能力,这些题目难度较高,仅包含文本。题目要求运用特定领域的概念,遵循多步骤逻辑得出正确答案。示例任务包括研究生水平的化学或物理题目,需要经过多步骤的求解过程,从几个非常相似的选项中选择最佳答案。
模型在GPQA Diamond基准子集上的能力持续高于专家验证基线(图2.4.2)。2024年底,OpenAI的o3以87.7%的准确率首次超越了基线。2025年,平均准确率达到93%,比专家参考值高出12个百分点。
图2.4.2
- ARC-AGI-2基准测试
ARC-AGI基准测试于2019年推出,用于检验模型超越先前训练的泛化能力,重点在于泛化学习能力。但该基准测试检验的是特定形式的抽象和模式推理能力,而非广义上的通用智能。最新版本为ARC-AGI-2,于2025年推出,转向抽象的谜题式任务,评估模型能否从少量示例中推断规则并将其应用于新案例。示例任务包括网格谜题,模型会获得一些示例解决方案,推断出规则,使用该规则解决新问题。
不同模型的ARC-AGI-2测试得分差异很大,图中最高分和最低分之间的差距约为46%(图2.4.3)。Gemini 3 Deep Think以84.6%的得分领先,其次是Gemini 3.1 Pro Preview(77.1%)和GPT-5.2 (Refine.)(72.9%)。Claude Opus 4.6的多个版本得分相近,得分在66.3%到69.2%之间。
图2.4.3
- “人类最后考试”基准测试(HLE)
“人类最后考试”(HLE)基准测试评估模型在数十个学术领域的2700道极具挑战性的问题上的能力。HLE是专家级的封闭式基准测试,覆盖范围广泛,采用适合自动评分的多项选择题和简答题相结合的形式。示例任务包括研究生水平的问题,要求应用某个概念并提供可验证的答案。有些任务可能包含图像,要求模型整合视觉和文本信息。
2024年至2025年间,模型在HLE测试中准确率提高了30个百分点(图2.4.4)。仅一年时间,准确率就从不足10%提升至38.3%。即使有了如此显著的提升,该基准测试的设计目标仍然是保持难度很大,高置信度错误仍然很常见。
图2.4.4
2.4.2.多层线性模型(MLLM)的时间读取能力
读取时间是大多数人习以为常的事情,但许多多模态模型却难以处理这个问题。模型在GPQA和HLE等专家级推理基准测试中取得了快速进步,但最近的研究表明,模型在读取模拟时钟方面存在困难。这项任务结合了视觉感知和简单的算术运算,包括识别时针和分针的位置,然后将其转换为时间值。其中一步的错误可能会影响下一步。
Saxena等人在ClockQA和CalendarQA两个数据集上测试了7个多模态模型(图2.4.5)。ClockQA包含62张模拟时钟图像,涵盖黑色表盘或无秒针的时钟等6种视觉风格,而CalendarQA则将年度日历图像与日期推理问题配对。在时钟读取任务中,即使是表现最佳的模型Gemini-2.0,精确匹配准确率也仅为22.6%(图2.4.6)。模型在日历问题上的表现更好,GPT-o1的准确率达到了80%,但当问题需要进行日期运算而不是识别众所周知的节假日时,错误率更高(图2.4.7)。
图2.4.5
图2.4.6
图2.4.7
- ClockBench基准测试
ClockBench基准测试将评估规模扩大到180种时钟设计和720个问题。人类正确读取格式正确的时钟的准确率为90.1%,而顶级模型GPT-5.4 High在2026年3月的准确率仅为50.6%(图2.4.8),相差约40个百分点,差距很大,但更大的差距在于错误的性质。当模型读错时间时,它们的误差中位数约为1到3小时,而人类的误差中位数仅为3分钟。
发表在IEEE互联网计算杂志(IEEE Internet Computing)上的一项研究解释了读取失败持续发生的原因。在对5000张合成时钟图像进行微调后,模型在熟悉的时钟样式上有所改进,但无法泛化到现实中的照片或具有不同特征的时钟,例如扭曲的表盘或更细的指针。当研究人员深入分析这些错误时,他们发现了一种模式。如果模型混淆了时针和分针,它判断指针方向的能力就会下降。这表明,困难并不在于训练数据,而是模型如何将单张图像中的多个视觉线索拼接起来。即使模型在知识密集型任务上与人类专家的差距正在缩小,这种视觉推理仍然是持续存在的挑战。
图2.4.8
2.4.3.规划能力
除了通用推理能力外,本文还追踪了模型的规划能力基准,评估模型按顺序执行多个步骤以实现目标的能力。模型必须跟踪已发生的情况,避免无效操作,在问题变得更长、更复杂时保持一致性。与单次推理问题不同,规划能力评估可以揭示仅在较长时间内才会出现的故障,包括累积错误或忘记先前的约束。用于衡量这些能力的基准至关重要,不同的任务会暴露模型不同类型的故障。
- PlanBench基准测试
LAMA等传统规划模型会系统地搜索所有可能的状态,在找到解决方案时生成正确的计划。而语言模型则基于学习到的模式生成计划,这意味着它们可能会生成看似合理的步骤,但其中可能包含无效步骤或遗漏约束。
PlanBench基准测试通过提示模型根据结构化的问题描述,在多个规划领域生成完整的规划方案,从而评估端到端规划能力。规划领域指具有自身规则和目标的特定问题类型,例如按特定顺序堆叠积木、规划路线或在不同地点之间运输包裹。
PlanBench基准测试以每个领域中解决的任务数量情况评估模型的能力,每个领域最多45个任务,并与传统规划基准的LAMA进行比较。
没有模型能在所有领域的规划能力都领先(图2.4.9)。在标准计划下,LAMA在多个领域的任务解决能力处于领先位置,包括Miconic任务(45/45)、Rovers任务(34/45)和Transport任务(33/45)。在Childsnack和Spanner等结构化程度更高的领域中,前沿模型能够达到或超过LAMA的能力,其中GPT-5在Childsnack上的任务解决数量达到38/45,在Spanner上的任务解决数量达到45/45。
当任务描述被打乱以掩盖其结构时,大多数模型在多个领域的任务解决数量方面都会下降,但具体影响取决于领域和模型(图2.4.10)。例如,DeepSeek R1在Blocksworld上的任务解决数量降至3/45,在Floortile和Sokoban上的任务解决数量降至0/45。同样,GPT-5在Blocksworld上的任务解决数量降至12/45,在Sokoban上的任务解决数量降至7/45。
图2.4.9
