【公益译文】2026年AI指数报告(二)

1.5.开源AI软件

前文重点介绍了值得关注的前沿模型以及构建和维护这些模型所需的基础设施。GitHub和Hugging Face等开源平台则提供了不同的视角,展现了开发者生态系统中AI模型的实验和构建过程。这些活动大多并未反映在学术文章或前沿模型发布中。AI指数分析了来自这两个平台的数据,更好地了解开源AI模型开发随时间的演变情况。

  • 模型开发项目

开源项目开发的规模稳步增长。GitHub上AI相关的项目数量从2011年的1549个增加到2025年的约560万个,从2024年开始,年增长率加快至23.7%(图1.5.1)。大多数代码库通常包含个人或实验性工作,很少受到关注。如果筛选出至少拥有10个星标的项目(这可以粗略地代表社区参与度),2025年项目数量下降至约206880个(图1.5.2)。两种衡量指标的增长轨迹相似。

图1.5.1
图1.5.2

随时间变化,更受关注的开源AI项目的地理位置分布发生了变化(图1.5.3)。在至少拥有10个星标的项目中,美国在2025年的份额最大(31.7%),但随着其他地区开发者在平台上的活跃度不断提高,这一比例已从 2011年的近80%稳步下降。欧洲和世界其他地区的项目数量有所增长,而中国的份额自2019年以来趋于稳定。印度地区的AI开发项目不断增长,占至少拥有10个星标的项目总数的5.2%。GitHub数据由于未涵盖使用Gitee或GitCode等国内平台的中国开发者,中国在全球开源AI项目情况中的份额可能被低估。目前中国地区的地理归属数据使用的是用户自报的位置,而非基于IP地址的地理位置信息。

图1.5.3
  • 星标

除了项目数量之外,GitHub星标是开发者对开源社区的兴趣程度和参与度的另一个指标(图1.5.4)。AI项目的星标总数从2023年的1400万增加到2025年的1820万。所有主要地理区域的星标数量均实现了同比增长。然而,星标的地理分布模式与上述项目份额数据有所不同。美国的项目份额有所下降,但其累计星标数量最高,达到3000万(图1.5.5)。因此,开源活动的地理分布更加分散,但参与度最高的项目仍然主要集中在美国。

图1.5.4
图1.5.5
  • 模型和数据集生态系统

为了补充GitHub的数据,本节使用了来自Hugging Face的元数据。Hugging Face是一个广泛使用的AI模型和数据集社区平台及开放存储库。分析重点关注2022年至2025年间创建或上传的资产,了解近期的活动和采用趋势(图1.5.6和1.5.7)。过去几年,上传活动持续增长,在2024年第二季度后显著增加。从2023年到2025年,模型上传量增长了两倍多,而数据集上传量增长了四倍。2023年之后,下载的情况也发生了变化。从地理位置上看,美国开发的模型的份额被非关联用户所取代。在开发者方面,谷歌和Meta等主要企业曾是主要贡献者,但现在其开发的模型下载量占比相对较小,而Sentence Transformers和BERT社区等则发展壮大(图1.5.8)。很大一部分模型下载量被归入“其他”类别,这反映了开发活动的更广泛分布,即使下载量最高的模型仍然与少数来源相关。

图1.5.6
图1.5.7
图1.5.8

过去三年,最主流的模型类型发生了变化。文本嵌入器、分类器和音频模型在2022年合计占下载量的近70%,到2025年下降到不足6%(图1.5.9)。文本生成、多模态和视频生成模型取而代之,增长迅速。文本生成模型在2025年领先,占总下载量的42%以上。图像生成模型也稳步增长,仍然是下载量第二大的类别。尽管发生了一些变化,但下载量仍然高度集中,前三大类别占近80%的下载量。

图1.5.9

1.6.AI研究论文

本节重点关注研究成果,特别是AI研究相关的英文论文和引用。文章提供了大规模AI研究活动的纵向信号,AI指数也一直在持续追踪这些文章。文章数量并非衡量研究质量的指标,而且并非所有研究都会出现在索引数据库中,但这种方法提供了持续追踪研究前沿进展的途径。2025年以来一直使用书目数据库,该数据库同时考虑了出版量和通过引用模式产生的下游影响。

1.6.1.AI研究论文总数

AI研究论文总量持续增长。2013年至2024年间,AI研究论文数量增长了一倍多,从约102000篇增加到约258000篇(图1.6.1)。2024年,AI领域的研究成果继续增长,但增速放缓,文章数量较2023年增长6.3%。AI研究如今已成为更广泛的计算机科学生态系统的重要组成部分,占OpenAlex所有计算机科学领域文章的40.9%。

图1.6.1
  • 按会议地点划分

2024年,期刊文章在AI研究论文中所占份额最大(62.8%),其次是会议文章(23.8%)(图1.6.2)。2013年以来,期刊和会议论文的绝对数量均有所增加,但其相对份额发生了变化。AI论文在会议上发表的比例从2013 年的36.6%稳步下降至目前的水平。然而,最新一年的结果也可能反映了会议安排的滞后性,论文通常会先出现在arXiv等预印本库中,然后再正式发表在期刊或会议上。

图1.6.2
  • 按会议出席人数划分

发布场所模式反映了AI研究的正式发布地点,会议出席情况对研究社区参与度情况进行了补充。在AI指数追踪的16个主要会议中,2024年的总参会人数较上一年有所增加(图1.6.3),包括AAAI、AAMAS、CVPR、EMNLP、FAccT、ICAPS、ICCV、ICLR、ICML、ICRA、IJCAI、IROS、KR、NeurIPS、UAI和IUI。NeurIPS、CVPR和ICML等规模最大的会议持续吸引着最多的参会者,而ICAPS、KR和UAI等规模较小的会议的参会人数较为固定(图1.6.4和1.6.5)。应谨慎解读这些数据,许多会议最近已转向线上或混合模式。会议组织者表示,由于线上会议允许来自世界各地的研究人员更广泛地参与,因此很难准确统计线上会议的参会人数。AI指数报告了总参与人数,涵盖线上、混合和线下参与方式。

图1.6.3
图1.6.3
图1.6.5
  • 按国家/地区划分

2024年,中国占AI研究论文总数的17.8%,欧洲占11.1%,印度占7.6%(图1.6.6)。2024年,中国AI研究论文也占所有AI引用量的20.6%,其次是欧洲(19.5%)和美国(12.6%)(图1.6.7)。美国的文章份额下降了3个百分点,但其引用份额基本保持不变(2024年为12.6%,2023年为13.03%)。文章数据中“未知”的份额在2024年上升至39.3%,这一激增反映了元数据覆盖范围的变化。文章和引用的地理分布为前文讨论的显著模型趋势提供了背景,即少数几个国家占据了不成比例的活动份额。

图1.6.6
图1.6.7
  • 按行业类型划分

2024年,学术界发表了大部分AI研究论文(68.1%),其次是政府机构(12.4%)、行业(11.5%)和非营利组织(4.6%)(图1.6.8)。各领域的文章构成因地区而异(图1.6.9)。在美国,AI研究论文中来自行业的份额(24.6%)高于中国(18%),而在中国,政府机构的贡献更为显著(25.1%)。欧洲的AI研究论文中,来自学术界的比例最高(55.3%)。

图1.6.8
图1.6.9
  • 按主题划分

2024年AI研究仍然集中在少数核心主题上,但研究领域范围持续扩大。与上一年类似,最普遍的研究主题是机器学习(37%),其次是计算机视觉(22.4%)、模式识别(11.2%)和自然语言处理(10%)(图1.6.10)。生成式AI的文章继续保持强劲增长,延续了往年的趋势。值得注意的是,AI指数主题分类器可以为单个文章分配多个主题标签,因此主题总数可以视为重叠类别,而不是互斥类别。

图1.6.10

1.6.2.前100篇AI研究论文

AI指数利用OpenAlex的引用数据,评选出了2021年至2024年被引用次数最多的100篇AI研究论文。由于引用数据统计存在滞后的问题,引用次数随时间积累,榜单可能会发生变化。上述文章数量数据反映了研究活动的规模,而前100名则更展现了获得最高认可度和影响力的文章。

  • 按国家/地区划分

前100名论文的地理分布随时间推移发生了变化(图1.6.11)。美国在每年高被引论文数量排名中仍然位居榜首,但其份额已从2021年的第64位逐渐下降至2024年的第46位,中国从2023年的34位上升至2024年的第41位,澳大利亚的被引论文数量增加到14篇。

图1.6.11
  • 按行业和组织划分

前100篇论文的发表行业类型保持稳定,学术界每年发表的高被引论文数量最多(图1.6.12)。行业在重要模型发布中所占份额持续增长,但其贡献却从2021年的17篇和2022年的19篇大幅下降至2024年的6篇。机构分布每年有所不同,论文产出仍然集中在少数机构(图1.6.13)。2024年,斯坦福大学和谷歌以7篇论文并列领先,中国科学院和微软紧随其后,各贡献5篇。

图1.6.12
图1.6.13

1.7.专利

研究论文可追踪研究成果,而专利则体现了应用创新和商业发展的情况。本节考察全球AI专利随时间变化的趋势。专利可以为追踪跨组织和跨地域的创新提供另一个视角,尤其是在应用AI领域。与论文数据类似,AI专利数据的发布也存在明显的延迟,目前可获取的最新年份为2024年。本分析基于欧洲专利局(EPO)提供的综合数据库PATSTAT Global中的专利书目记录。

  • 全球趋势

全球范围内,AI专利授权数量呈指数级增长,从2010年的3866项增至2024年的131121项(图1.7.1)。2023年至2024年间,专利授权数量增长了8.2%。中国占据了绝大多数,占全球总数的74.2%(图1.7.2和1.7.3)。美国位居第二,占比12.1%(15290项专利),其次是欧洲和印度,分别占比3%和0.4%。过去十年,美国的份额从2015年42.8%的峰值逐步下降,而中国的份额则从不足20%上升到当前的74.2%。专利和论文反映了研发流程的不同阶段,因此,中国在这两方面的领先地位虽然并非直接相关,但与前文所述的中国日益增长的科研实力情况相符。专利活动按人口规模标准化后,其他地区的领先优势便显现出来(图1.7.4)。2024年,韩国的人均AI专利授权数量最高,占14.3%,其次是卢森堡和中国,分别占比12.3%和7.0%。

图1.7.1
图1.7.2
图1.7.3
图1.7.4
  • 前向引用

新提交的专利引用早期专利时,这些引用被称为前向引用。这些指标表明一项发明对后续工作的影响程度,所以通常被用作影响力的衡量标准。按此衡量标准,美国占人工智能专利前向引用总数的一半以上,这表明其下游影响力显著,但这与其12.1%的专利总量份额形成鲜明对比(图1.7.5)。中国的专利总数遥遥领先,但排名第二。前向引用与技术影响力之间的关系并非简单直接,一直备受质疑。所有国家都存在明显的本土偏好,大多数引用发生在国内,这在专利引用地理分布中是有据可查的模式。也就是说,跨境专利流并不对称。中国专利在美国专利申请中被频繁引用,而美国专利在中国专利申请中出现的频率则低得多。

图1.7.5
  • 知识扩散速度

专利引用滞后指专利发表到首次被前向引用之间的时间,可以用来衡量知识在学科内传播的速度。对于人工智能专利而言,大多数专利在两到三年内获得首次引用,反映出其传播速度相对较快。传播速度因国家而异(图 1.7.6)。美国专利往往被更快、更稳定地引用,只有19%的专利未被引用,而其他地区的未被引用比例为32%至44%。日本的专利的影响力早期显现,但范围较窄。中国和韩国的专利最初引用速度较慢,但大约六年之后,所有地区的引用活动都趋于稳定。这些模式与上述前向引用数据一致,但引用规范的差异和本土偏好问题可能对此产生了影响。

图1.7.6
  • 技术接近度

技术接近度可以衡量各国在人工智能创新方面是否趋同,还是走不同的道路。本文使用Bar等人提出的方法,比较了各国人工智能专利与两个最大参考点的相似程度(图1.7.7),即美国和中国。重叠程度的评分范围为0(完全不相似)到1(完全相似)。大多数国家集中在右上角,说明它们的人工智能专利涵盖的技术领域与美国和中国相似,但更倾向于美国专利。例如,印度和澳大利亚的专利技术领域与中国和美国的重叠率接近80%,丹麦与中国和美国专利领域的相似度最低,与中国专利领域的重叠率仅为45%,与美国专利领域的重叠率为52%。这是因为丹麦的人工智能专利集中在能源和风能相关技术类别(专利代码Y02E、F03D、F05B),而不是中国和美国都占主导地位的核心计算和数据处理类别(专利代码G06F、G06N、G06K)。虽然大多数国家的人工智能创新专利结构相似,但各国的产业实力往往会影响人工智能的应用领域。

图1.7.7
  • 人工智能专利示例

(1)CN111431996A:资源配置方法及装置、设备和介质,2022年,中国

机器学习预测模型用于确定如何在集群中的多个服务之间分配计算资源。该模型从历史信号和实时信号(例如流量)中学习。通过分析数据量以及CPU、内存和网络使用情况,推断出合适的资源配置,从而无需依赖手动规则即可实现自动化动态扩展决策。

(2)US11436777B1:基于机器学习的灾害可视化系统,2022年,美国

该系统训练机器学习模型,预测特定位置的灾害属性(时间、路径、严重程度),识别地理空间图像中的基础设施。它将模型输出组合起来,对地图进行标注,显示灾害与关键资产的交汇点。该系统还支持因果推断,例如,识别反复受灾害影响的基础设施。这些功能依赖于学习到的预测和图像识别模型,而非确定性的映射逻辑。

(3)US2023239456A1:基于机器学习的宽视场立体视图合成显示系统,2025年,美国

这款头戴式显示器使用深度估计和重建等机器学习技术从外部摄像头创建透视校正的立体图像。神经网络模型通过推断场景几何形状并填充摄像头视角与用户眼睛不对齐的空白区域,处理实时视觉问题,例如消除遮挡、减少和锐化伪影。机器学习是实现虚拟现实/增强现实渲染技术的核心环节。

1.8.AI研究论文作者和发明人

以上讨论的论文和专利反映了研究与开发成果。使用Zeki数据方面,AI指数考察了AI研究论文作者和发明人随时间推移的地域分布和流动模式。Zeki基于可观察到的研究、数据存储库和新模型等AI产出来识别中国以外的人才,涵盖了2010年至2025年北美、欧洲、亚洲、拉丁美洲和中东部分国家的数据。

1.8.1.论文作者和专利发明人数量

  • 按地理位置划分

到2025年,已知的AI论文作者和发明人中,美国占比最高(220520人),其次是印度(50460人)和德国(48520 人)(图1.8.1),再次是英国(34370人)、加拿大(31450人)和法国(18820人),澳大利亚、荷兰、意大利、巴西、瑞士和其他国家也都所有贡献。按人均数据来看,有些国家的AI研究活跃度相对较高,而从总量数据来看则难以发现,正如前文中的人均专利数据所示。瑞士以每10万居民110.5名AI论文作者和发明人位居榜首,新加坡紧随其后(109.5)(图1.8.2),芬兰(77.6)、荷兰(77.6)和丹麦(66.3)等人口较少的国家排名高于德国(58.1)和英国(49.6)等人口较多的国家。

图1.8.1
图1.8.2
  • 按教育水平划分

各国AI论文作者和发明人的教育背景各不相同,但在大多数国家,2025年,拥有博士学位和硕士学位的人员占多数(图1.8.3)。英国(51.1%)和澳大利亚(50.5%)的博士学位持有者比例最高,其次是瑞士(43.6%)、韩国(42.5%)和美国(42%)。印度和巴西的学位持有者分布更为分散,博士学位持有者比例相对较低,其他学位级别的分布更为广泛。

图1.8.3
  • 按性别划分

AI论文作者和专利发明人的性别差距在所有国家都较为明显,男性在所有情况下都占多数,只不过差距的大小有所不同(图1.8.4)。在巴西、韩国和日本,超过80%的已知AI领域人才为男性。沙特阿拉伯(32.3%)、澳大利亚(30.1%)、加拿大(29.6%) 和意大利(29.5%)的女性比例略高,但没有国家没有性别差距。更重要的是,几乎在所有国家,从2010年到2025年,男女比例都保持不变。即使AI领域人才总体上有所增长,性别平衡方面也没有取得实质性进展。

图1.8.4
  • 按专业领域划分

AI论文作者和发明人分布在多个专业领域,但每个国家都有其侧重点(图1.8.5)。医疗和生物信息学、计算机视觉和图像处理以及软件工程是全球最常见的领域,在有些国家占比达到10%或以上。有些国家层面的模式与前文讨论的发现相吻合。例如,韩国在硬件、超大规模集成电路(VLSI)和物联网(IoT)领域的人才占比最高(20%),这与前文描述的半导体供应链中的作用相一致。巴西在软件工程领域的人才占比最高(18%),而沙特阿拉伯在安全、隐私和密码学领域人才占比处于领先位置(15%)。

图1.8.5

1.8.2.流动性

流动性通过净流动来衡量,即AI论文作者和专利发明人迁入或迁出所在国家的数量之差(图1.8.6)。自2020年以来,美国一直保持净流入,虽然净流入量已从2022年的峰值324.6下降到2025年的26.0,但吸引的人才数量仍多于流失。其他大多数国家的净流入规模较小,沙特阿拉伯(3.1)和丹麦(2.1)是少数几个在2025年仍保持净流入的国家。

加拿大在2020年前后曾出现强劲的人才流入情况,但到2025年已降至-7.1。德国的净流入也为负值,为-2.4,而印度在2025年的净流出量最大,为-16.9。这些流动情况与移民政策以及投资和就业的地域分布等因素密切相关。

图1.8.6

 

Spread the word. Share this post!

Meet The Author