小数据人工智能的巨大潜力

阅读： 617

一、执行摘要

本文简要介绍了“小数据”人工智能方法。这些方法可用于无标记数据或几乎无标记数据可用的情况，降低我们对大数据（从现实世界收集的海量数据集）的依赖。根据人们对人工智能的传统认识，数据是一种重要的战略资源，尖端人工智能技术的任何重大进步都需要大量数据。这一认识过分强调了“大数据”的作用，忽略了小数据方法。实际上，这些方法因为不需要对海量数据集进行培训而大有潜力。

本文分为两部分。第一部分介绍了主要的小数据方法，将其分为五大类：迁移学习、数据标记、人工数据、贝叶斯方法和强化学习，阐述了它们的重要性。我们的目的不仅是指出小数据方法的潜在优势，还为了促进非技术读者对数据的认识，了解数据在人工智能的恰当使用时机和方式。第二部分介绍了我们对CSET的原始数据集分析后得出的结论，评估了各种小数据方法已取得和预计取得的科研进展，介绍了这方面的领先国家以及这项研究的主要资金来源。根据我们的发现，本文总结出了以下四个关键点：

人工智能不是大数据的同义词，在各种小数据环境中可以使用多种替代方法。
迁移学习的研究发展尤其迅速（甚至超越了更大、更知名的强化学习领域），这意味着迁移学习未来可期，可能更有用武之地。
美国和中国在小数据方法方面的竞争非常激烈，美国在强化学习和贝叶斯方法这两大类中处于领先地位，而中国在迁移学习这一增长最快的类别中保持着不断扩大的领先地位。
在小数据方法方面，迁移学习的投资份额相对于整个人工智能领域而言较小，因此，美国政府可尝试在迁移学习方面增加资金投入。

二、概述

根据传统认识，尖端人工智能依赖于大量数据。对人工智能的这一认识让数据成为了一种重要的战略资源，一个国家（或公司）可以访问多少数据被视为人工智能进步的关键指标。人们对于数据在人工智能中的作用的认识并非毫无道理，毕竟，当前许多人工智能系统确实使用了大量数据。但决策者若以为这是所有人工智能系统的永恒真理，就未免有失偏颇。过分强调数据，就会忽略有些人工智能方法，这些方法不需要大量的标记数据集或从现实世界交互中收集数据。本文将这些方法称为“小数据”方法。

我们所说的“小数据”并不是一个明确的类别，因此不存在公认的统一正式定义。学术著作讨论小数据的应用时，通常将其与样本规模联系起来，例如，KB/MB级别与TB级别的数据。媒体科普文章试图基于可用性和人类认知等各种因素描述小数据，有的作者认为小数据蕴含了有用信息，且因其规模和格式而易于访问，方便应用，尤其是商业决策。数据被大量引用后往往成为通用资源。然而，数据具有不可替代性，不同领域的人工智能系统需要不同的数据和方法来解决具体问题。

本研究从决策者的角度来描述小数据。政府部门通常被认为是人工智能领域的潜在重要参与者，因为他们能够接触到真实世界的互动，并且能够收集到海量信息，例如气候监测数据、地质调查、边境控制、社会保障、选民登记、车辆和驾驶员记录等。在对各国人工智能竞争力进行比较时，许多人都将中国列为拥有独特优势的国家。我们撰写这篇文章，部分原因是为了介绍一些技术，改变这些想当然的看法。

最后，有人认为，政府组织只有数字化、清理和标记大量数据，才能从人工智能革命中受益。虽然这不无道理，但认为人工智能的所有进展都取决于这些条件却有失偏颇。这一想法忽略了未来的人工智能可能不仅仅与大数据有关，也没有认识到，政府部门（以及其他部门）在不对大数据基础设施进行大规模投资的情况下仍然可能实现人工智能的创新。

本文的目的不仅是指出小数据方法的潜在优势，还为了促进非技术读者对数据的认识，了解数据在人工智能的恰当使用时机和方式。本简报可作为小数据方法（可最小化对“大数据”依赖的方法）的入门读物。它分为两部分：第一部分从技术上解释了何为“小数据”方法，包括哪些类别以及它们的重要性。这部分为第二部分的数据分析奠定了概念基础。第二部分基于原始CSET数据集，特别是我们的学术文献总库（囊括了世界90%以上的学术成果），从研究进展、国家竞争力和资金三个方面，介绍了我们在小数据方法研究方面的发现。我们调查了这些方法已取得和预计会取得的科研进展，指出了领先国家以及研究的主要资金来源。最后，本文基于前文所述发现，总结出了四个关键点。

三、“小数据”方法分类

本文的研究围绕五大类“小数据”方法展开：a）迁移学习；b）数据标记；c）人工数据生成；d）贝叶斯方法和e）强化学习。下文会对这些方法进行详细介绍。需要注意的是，这种分类并非十全十美。人工智能和机器学习研究覆盖了多种方法、手段和范例，用于解决各类问题，因此难以进行简单分类。我们之所以介绍这些分类是为了让读者了解一些粗略的概念方法，使用这些方法，即使无法获得大量的预标记数据集，也能训练人工智能系统。我们这里所述的类别在实际使用中并没有清晰界定，它们既不互斥，也不代表全部方法。

迁移学习的工作原理是，首先学习如何在有充足数据的环境中执行任务，然后将在那里学到的知识进行“迁移”，在可用数据很少的环境中执行任务。这一方法适用于以下场景：只有少量标记数据可用于目标问题、但有大量标记数据可用于相关问题。

例如，有人开发了一个珍稀鸟类识别程序，每种鸟可能只有几张照片，每一张都标明物种。要进行迁移学习，可以先使用更大、更通用的图片库（如ImageNet）来训练基本的图片分类器。ImageNet标记了数百万张图片，横跨数千个类别。在分类器区分出狗和猫、花和水果、麻雀和燕子后，再给它提供小得多的稀有鸟类数据集。然后，该模型便可以“迁移”学到的图片分类知识，利用这些知识从少得多的数据中学习新任务，即识别珍稀鸟类物种。

数据标记方法适用于标记数据有限、未标记数据充足的环境。这类方法使用多种途径来理解可用的未标记数据，例如自动生成标签（自动标记）或识别特别适用标签的数据点（主动学习）。

例如，主动学习已被用于皮肤癌诊断研究。图片分类模型先在100张被标记为皮肤癌或健康皮肤的照片上训练，接下来，再访问更大的潜在训练图片库，从中再选择100张照片进行标记并添加到训练数据中。为了从可用数据中学习到尽可能多的信息，该模型判断哪些图片能提供更多的信息用以区分健康皮肤和皮肤癌，再选取这些照片进行标记。

人工数据生成方法通过创建新的数据点或使用其他相关技术，尽可能从少量数据中提取最多的信息。这类方法简单如对现有数据进行微小更改（例如，对图片分类数据集中的图片进行裁剪或旋转），复杂到推断可用数据的底层结构并基于此进一步外推。

一个简单的例子是，计算机视觉研究人员已经能够使用计算机辅助设计（CAD）软件（从造船到广告等行业广泛使用的工具）生成日常物体的真实3D图像，然后使用这些图像来扩充现有的图片数据集。所需数据若有单独的信息源（本例中的众包CAD模型），这种方法更可行。在其他情况下，可能需要更复杂的方法。一般来说，数据生成需要对相关数据做出某种强假设，而生成的数据是否有用取决于这些假设的有效性。

生成额外数据不仅在处理小型数据集时有用。如果数据可能包含敏感信息（例如个人的健康记录），但研究人员需要了解数据的总体分布，则可以使用合成数据对数据进行随机更改以降低其可识别性，从而隐藏隐私信息。

贝叶斯方法是机器学习和统计学中用到的一系列方法的集合，这些方法有两个共同的特点。首先，它们都试图将问题的结构信息（即所谓的“先验”信息）明确纳入问题的解决方案中。这与大多数机器学习方法形成了对比，后者倾向于对问题进行最小假设。贝叶斯方法在基于可用数据进一步改进之前会合入这些“先验”信息，因而更适合于数据有限、但可以用数学形式写出问题信息的环境。其次，贝叶斯方法侧重于对预测的不确定性进行精确的估计。这在可用数据有限的环境中很有帮助，因为估计不确定性可以更容易地识别数据点，如果收集到这些数据点，将对降低不确定性意义重大。

在使用小数据上，贝叶斯方法已被用于监测全球地震活动，以探测地震和验证核条约。研究人员开发一个模型，合入地震学中的先验知识，就可以充分利用现有数据来改进模型。

贝叶斯方法是一个庞大的家族，不仅仅包括那些特别擅长处理小数据集的方法。简而言之，为了追求研究的全面性，我们纳入了该大类，尽管其中的部分方法可能使用了大型数据集。

强化学习是一个广义术语，指的是一种机器学习方法，即代理（计算机系统）通过试错学习如何与环境交互。强化学习常用于训练游戏系统、机器人和自动驾驶车辆。

例如，强化学习已被用于训练人工智能系统玩视频游戏，不管是简单的街机游戏（如乒乓球）还是战略游戏（如星际争霸）。无论是简单游戏还是复杂游戏，系统一开始都对游戏玩法知之甚少（或一无所知），但通过不断尝试并观察哪些行为产生正奖赏信号来一步步学习。（在视频游戏的例子中，奖赏信号通常以玩家得分的形式出现。）

强化学习系统最终往往还是要学习大量的数据，需要大量的计算资源，因此在这里，它们似乎不太合时宜。尽管如此，我们还是将它们包括在内，因为它们使用的数据通常是在系统训练时（一般是模拟环境）生成的，而不是事先收集和标记。在强化学习问题中，代理与环境交互的能力至关重要。

图1展示了上述各类方法的联系，每个点代表某一类别的一个研究集群（即一组论文）。方法细节见附录。两个研究集群之间的连线粗细代表了彼此之间引用关系的强度。没有连线表示不存在引用关系。如图所示，虽然集群确实倾向于与同一类别中的其他集群联系最多，但不同类别的集群之间也存在相当多的联系。此外，“强化学习”集群形成了一个特别连贯的分组，而“人工数据”集群则分散得多。

数据来源：截至2021年2月12日的CSET学术文献总库

四、小数据方法的意义

与数据密集型方法相比，不依赖预先收集的大型标记数据集的人工智能方法具有许多优势，比如：

缩小大、小型实体之间的能力差异

大型数据集对于人工智能应用的重要性越来越大，而不同组织收集、存储和处理所需数据的能力存在差异。这样，就有可能产生人工智能“富人”（如大型科技公司）和“穷人”，区别就在于谁有能力满足这些需求。如果迁移学习、自动标记、贝叶斯方法等允许在数据较少的情况下应用人工智能，则小组织在数据方面的进入壁垒将会降低。这样，就会缩小大、小实体之间的能力差异。

减少收集大量个人数据的需求

几项调查表明，大多数美国人认为人工智能会大大减少个人隐私。之所以有这种担忧，是因为大型科技公司为训练人工智能算法，不断收集越来越多与个人身份相关的消费者数据。小数据方法无需收集大量实际数据来训练机器学习模型，因而有望缓解这种担忧。特别是能够人工生成新数据（如合成数据生成）或使用模拟训练算法的方法，它们不依赖个人生成的数据，或者合成数据以删除敏感的个人身份属性。尽管减少收集大量实际数据的需求并不等于可以彻底解决隐私问题，但使用这些方法，机器学习无需大规模收集、使用和披露消费者数据，缓解了隐私泄露问题。

推动缺乏数据点的领域的发展

人工智能的许多最新进展都是由可用数据的爆炸性增长促成的。然而，对于许多重要问题，可能根本没有或只有极少量数据能输入人工智能系统。例如，想象一下，为没有电子健康记录的人构建预测疾病风险的算法，或者预测活火山喷发的可能性。小数据方法可以系统性处理数据的缺乏或缺失，比如，通过迁移相关问题的知识，同时利用标记和未标记数据来实现。小数据的用处还体现在可以利用手中的少量数据点创建更多的数据点，或者利用相关领域的先验知识，还可以通过模拟或编写结构性假设尝试进入新领域。

避免脏数据问题

大型组织虽然有数据，但要做到干净、结构整齐、便于分析还有很长的路要走，这时就可以使用小数据方法。例如，由于孤立的数据基础设施和遗留系统，美国国防部拥有大量“脏数据”，要清洁、标记和整理这些数据既耗时又费力。数据标记方法（例如自动生成标签）可以简化大量未标记数据的处理过程。

迁移学习、贝叶斯方法或人工数据方法通过使用相关数据集、结构化模型或合成数据，可以缩小待清理数据的数量，从而显著缓解脏数据问题。

宏观上，我们还认为，对于从事人工智能相关工作的决策者来说，重要的是要明晰数据在人工智能发展中所能发挥和不能发挥的作用。上述因素对本文所述方法并非完全适用。例如，强化学习通常需要大量数据，不过，这些数据是在训练过程中生成的（例如，当人工智能系统移动机械臂或在虚拟环境中导航时），而非事先收集。

五、发现

为了了解小数据方法的研究进展，我们使用CSET的研究集群数据集来查找与上述五类方法（迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习）相关的研究。研究集群指具有引用关系的一组科学研究文章，例如，研究人员表示使用了其他研究人员的想法、方法、结果等。

为进行分析，我们围绕上述五类方法确定了150个研究集群。为进行比较，还挖掘出了735个人工智能集群。这150个集群共有约80,324篇论文，收录在CSET的学术文献总库中，该库包含超过90%的全球学术成果。为了确定哪些论文属于“小数据”类别，我们首先与技术专家合作，为每个类别定义了一组关键字。接下来，我们按照这些关键字搜索，找出反复提及关键字的论文，再划分到对应集群中。最后，手动排除与小数据显然无关的集群。在确认了150个可用集群后，我们将每一集群与所定义的类别关联，集群中的所有论文均属于对应类别。采用这种方法时，我们尽量在准确性和全面性之间达到平衡，但是，仍有很大可能因为论文没有提及本研究领域中的其他作者而遗漏了这些论文，或者有些研究论文可能由于引用而关联到某集群，但实际上与本文论题并无直接联系。因此，特此提醒读者，下文分析仅为初探，而非最后定论。有关研究方法的详细信息，参见附录A。

在下述几小节中，我们从研究进展、国家竞争力和资金方面介绍了我们对研究集群中所有论文的研究结果。我们希望通过这些分析，发现这些方法的当前和预期科研进展，判断哪个国家处于领先地位以及这项研究的主要资金来源。

研究进展

就研究量而言，我们的五类“小数据”方法在过去十年中有着迥然不同的轨迹。如图2所示，就论文数量而言，强化学习和贝叶斯方法是最大的两类。贝叶斯集群中的论文数量在过去十年中稳步增长，而强化学习集群从2015年才开始增长，然后在2017年至2019年间增长尤为迅速。这可能是由于深度强化学习由于技术挑战直到2015年才取得革命性进步。与这两个集群相比，在过去十年中，人工数据生成和数据标记研究论文的年产出数量较低。

最后，迁移学习类在2010年开始规模较小，但到2020年已呈现大幅增长趋势。

数据来源：截至2021年2月12日的CSET学术文献总库

当然，论文数量与论文质量是两码事。我们使用两个指标来评估各类集群中论文的质量：H指数和年代修正引用量。H指数是一个常用指标，反映论文（本文中指各类集群中的论文）的出版活跃度和总引用影响。然而，H指数的一个限制是，它不考虑论文发表年限（也就是说，较老的论文因为发表时间较早会有更多的累积引用量）。因此说，该指数忽略了这一事实，即最有影响力的论文发表时间较短，尚未被大量引用。针对这种情况，我们根据论文发表年限对引用量进行了修正，如图3所示。从图中可以看出，仅在H指数上，强化学习和贝叶斯方法大致相等，但考虑到论文的年代，强化学习排在首位。这意味着，就我们的研究集群而言，贝叶斯方法的累积影响似乎更大，但实际上，强化学习因近几年在论文产出和引用方面的激增而更为突出。

数据来源：截至2021年2月12日的CSET学术文献总库

然而，如果以为强化学习在过去十年中增长最快，那就错了。图4进一步揭示了各类别随时间增长的情况。如图所示，2011至2020年间，迁移学习的增长最为稳定，除两年外，在其余所有年份的增长都最高。此外，人工数据生成在过去五年中也有增长，这在图3中不太明显，因为该类别的论文总数较少。然而，2012至2015年期间，该类别的增长数据出现了大幅度下滑，因此很难对其增长轨迹得出具体结论。

数据来源：截至2021年2月12日的CSET学术文献总库

图5根据CSET开发的预测模型，对各类别的三年预测增长进行了比较，并增加了“总体人工智能”论文作为基准进行比较。如图所示，迁移学习是预测增长速度超过总体人工智能研究的唯一类别，远超其他所有类别，与前几年的增长趋势一致。

数据来源：截至2021年2月12日的CSET学术文献总库

说明：未来增长指数根据CSET对研究集群增长的预测计算。有关研究方法的详细信息，参见附录A。

国家竞争力

在本节中，我们通过观察全球前10个国家在各类小数据方法中取得的研究进展，探讨各国在小数据方法中的竞争力。我们使用简单的指标，如发表论文数量和年代修正引用量，初步了解各国在各类方法中的相对地位。希望读者探索其他指标，以充分揭示各国在小数据方法方面的潜力。

表1列举了按小数据出版物排名的前10个国家的各类论文总数。

与人工智能研究的总体结果一致，中国和美国在小数据相关的研究论文中占据前两位，紧随其后的是英国。中国在数据标记和迁移学习方法方面的学术出版物总数中处于领先地位，而美国在贝叶斯方法、强化学习和人工数据生成方面处于领先地位。

数据来源：截至2021年2月12日的CSET学术文献总库

有意思的是，除了美国和中国之外，所有小数据研究排名前10位的国家都是美国的盟友或合作伙伴，而俄罗斯之类的国家均没有出现在名单上。不过，这一数据趋势也可能是因为我们对于有多国作者参与的论文进行了多次统计，这样，美国及其盟国的研究人员合作的论文就会因为重复计算而导致统计数字高于实际数字。对合作论文进行分析后，我们发现这一判断基本正确。

论文引用量常被用来衡量研究质量和影响。我们的研究结果表明，中国的研究论文不仅数量大，质量也高，涉及多个小数据类别。如表2所示，根据基于出版年代修正过的论文引用量（可以大概理解为年引用数量），中国在迁移学习和数据标记方法方面继续处于领先地位。中国研究水平排名的唯一变化是贝叶斯方法，其影响位列第三。从年代修正引用量来看，美国在各领域的研究水平均处于前列。

数据来源：截至2021年2月12日的CSET学术文献总库

图6显示了按国家细分的三年增长预测。从图中可以明显看出，中国在迁移学习方法方面的预期增长将大大超过美国和其他国家。如果这一预测准确的话，将意味着中国可能在迁移学习方面进一步甩开其他国家，至少在发表论文数量上是如此。

数据来源：截至2021年2月12日的CSET学术文献总库

说明：未来增长指数根据CSET对集群增长的预测计算。有关研究方法的详细信息，参见附录A。

资金来源

我们分析了小数据方法研究的资金来源，预测哪些实体可能会为研究论文提供资金。需要特别注意的是，仅有约20%–30%的研究论文有资金信息，而有资金数据的论文和没有资金数据的论文之间并不一定存在系统性差异。无论是哪一学科的研究，在政府、公司、学术界和非营利组织中，政府往往是最大的资助者，而论文作者通常属于学术界。基于这一认识，我们将小数据研究的结果与总体人工智能研究进行了比较，以了解两者差异。值得注意的是，在全球范围内，政府资金在本文所述小数据方法中所占的份额要比在总体人工智能中所占的份额更大。如图7所示，政府在全部五个类别中的资金占比均高于在总体人工智能研究方面的资金占比。我们还发现，与其他人工智能方法相比，非营利组织在小数据研究中所占的资金比例较小。贝叶斯方法的资助模式与总体人工智能的资助模式最为相似。

数据来源：截至2021年2月12日的CSET学术文献总库

图8按国家进一步展示了政府实体提供的资金信息。我们的研究结果表明，尽管政府资金的总体趋势是向小数据研究倾斜，但美国政府在小数据研究方面的资金份额低于其在总体人工智能研究中的份额。另一方面，与总体人工智能研究相比，美国的私营部门公司更倾向于为小数据研究提供资金（详见附录B图9）。

数据来源：截至2021年2月12日的CSET学术文献总库

其他国家的数据反映了几乎完全相反的趋势，政府资金在小数据研究中的份额要高得多，特别是与私营部门相比。我们注意到，与总体人工智能相比，非营利组织（如研究信托机构和基金会）不太愿意为小数据研究提供资金（详见附录B图10）。

六、关键要点

本文概要介绍了人工智能的一系列“小数据”方法。根据我们的调查结果，总结如下：

人工智能并非仅指大数据，尤其是预标记大数据集。大数据对于过去十年间蓬勃发展的人工智能所起的作用是不可否认的，但将大规模数据收集和标记视为人工智能进步的先决条件却会误导决策者。

还存在许多其他方法，可根据具体情况在不同的环境中使用。例如，如果某一问题的数据很少，但相关问题的数据丰富，那么可使用迁移学习；如果可以在模拟或真实环境中，使用代理通过试错而不是预先收集的数据进行学习，则需要使用强化学习方法来解决问题。

对迁移学习的研究尤其迅速—甚至超过了更大、更知名的强化学习领域。这意味着迁移学习未来可期，可能更有用武之地。因此，决策者解决问题时若缺乏数据，可尝试发掘相关数据集，以此为起点，进行迁移学习。

根据我们基于集群的研究方法，在五种方法中，美国和中国在小数据方法方面的竞争非常激烈，在每一类别中，两国都位列前两位（按研究论文数量）。美国在两种主要方法（强化学习和贝叶斯方法）中领先，在迁移学习这一增长最快的类别中，中国具有的优势还在不断扩大。

美国政府可以尝试将迁移学习作为加大资金投入的主要目标。相对于对总体人工智能领域的投资，美国政府在小数据方法上的投资份额较小。这可能是因为小数据研究并未得到美国政府的重点关注，也可能是因为私营部门的资金向这些领域倾斜。无论是哪种原因，鉴于迁移学习迅速崛起，美国政府可能会增加在这方面的资金投入。

作者介绍

Husanjot Chahal、Helen Toner和Ilya Rahkovsky分别是CSET的研究分析师、战略主任和数据科学家。

附录A：方法

确定研究集群

本文采用了CSET数据科学团队创建的现有研究集群数据集。研究集群指通过引用关联的一组科学研究论文。用于判断研究集群的论文均取自CSET的科学文献总库，该库涵盖五大数据集，约占世界学术产出的90%：维度（Dimensions）、微软学术图谱、中国知网、arXiv和科学网（Web of Science）。文献库包括1.098亿篇中文、英文、法文、德文、日文、葡萄牙文、西班牙文等语言的研究论文，覆盖范围广，涉及国家多，适合进行国与国之间的比较。在本文中，我们使用了CSET截至2021年2月12日的数据。

对于每一研究集群，CSET的数据科学团队提取了论文标题和摘要中最常见的短语（一个或多个形容词与名词的组合）。撰写本文时，我们利用这些提取的短语找出了这五个领域（迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习）的研究集群。在技术专家的帮助下，我们列出了可识别这五类研究的短语，经过筛选，最终确定了如下研究集群：

迁移学习：相关研究集群中，有10%或更多的论文中至少出现了一个下列短语：“迁移学习”、“零次学习”（zero-shot learning）、“一次性学习”（one-shot learning）、“小样本学习”（few-shot learning）。
数据标记：相关研究集群中，有10%或更多的论文中至少出现了一个下列短语：“自动图像标注”、“半监督学习”、“主动学习”。
人工数据生成：相关研究集群中，有10%或更多的论文中至少出现了一个下列短语：“合成数据”、“虚拟样本生成”。
贝叶斯方法：相关研究集群中，有10%或更多的论文中出现了包含“贝叶斯”（如“贝叶斯推断”、“贝叶斯网络”等等）的短语，有超过10%的论文围绕人工智能展开。
强化学习：相关研究集群中，有10%或更多的论文中出现了“强化学习”这一短语。

本文使用的基本方法是通过文献计量聚类进行科学映射（science mapping），在网络中发现社区。我们用提取的短语在通过引用关联的集群中进行搜索，用较小的短语集来发现相关的小数据社区。然而，这种基于引用的方法可能搜索出与主题并不直接相关的论文，这些论文由于引用关系而与某一集群相关；也可能遗漏了一些未被其他论文引用的相关论文。此外，考虑到涉及的数据量之大，对数千份论文采用聚类方法很难验证，我们最终不得不在准确性和包容性之间做出抉择。为在两者之间达到平衡，我们采取了如下两个步骤。

首先，我们手动检测短语搜索结果，确定阈值，低于该阈值，绝大多数集群都与论题无关。我们发现，在所有的研究集群中，若仅有不到10%的论文提及我们所提取的短语，则该集群不太可能聚焦于相关主题，因此加以忽略。其次，对于超过10%阈值的各研究集群，我们筛选了前10篇核心论文、前10篇被引用最多的论文和前10个短语，确认是否与特定主题相关。与主题明显无关的研究集群有91个，均被删除，其中包含3个迁移学习、17个数据标记、10个人工数据生成、15个贝叶斯方法和46个强化学习集群。这样，就剔除了短语使用意义不同的集群，例如，有些集群的“主动学习”指的是教育中的学习方式，有些集群的“强化学习”主要针对心理学领域，还有的集群主要关注的是数学或统计学而不是机器学习或人工智能本身。

下表列出了我们所识别的研究集群信息，以供参考：

类别	识别的研究集群数量	研究集群内论文数量（2010–2020）	研究集群内人工智能论文所占比例（平均）（最低值，最高值）
迁移学习	9	8,102	78%（52%，89%）
数据标记	16	11,405	74%（31%，88%）
人工数据生成	4	1,433	45%（6%，85%）
贝叶斯方法	78	32,247	41%（10%，85%）
强化学习	43	27,137	63%（7%，94%）
总计	150	80,324

表3 小数据领域研究集群的基本信息

数据来源：截至2021年2月12日的CSET学术文献总库

增长预测

我们的研究结果参考了“未来增长指数”，该指数根据CSET对研究集群增长的预测计算得出。CSET根据研究集群出现极端增长（即2020至2023年，集群中的论文数量年增长率超过8%）的概率对其进行了排名。为更直观地呈现这些排名，本文使用的未来增长指数取各类集群的平均预测排名的倒数，然后乘以10万。

例如，在55,000个参与排名的集群中，迁移学习类别的集群在极端增长概率方面平均排名3761位。根据上述公式，迁移学习的增长指数就等于1/3761×100000=26.6。

对于按国家细分的增长预测，我们选择了各国发表的所有小数据论文以及这些论文所属的研究集群。然后，根据每篇论文的研究集群确定其增长排名。最后，根据每个国家每一集群中的论文数量，得到增长排名的加权平均值。

比较资助模式

在CSET数据库中的所有小数据研究论文中，约30%有资金数据可查。通过这些数据，可了解到相关资助实体及其来源国的信息。这其中的许多论文（大约占所有论文的20%–30%）可查到资助实体类型（政府、公司、学术界和非营利组织）。基于这些信息，我们计算了各部门为这些论文提供的资金占比。下表列出了各实体对五类小数据论文以及总体人工智能论文提供的资金占比。

数据来源：截至2021年2月12日的CSET学术文献总库

为了探究小数据方法和总体人工智能资助模式的差异，我们从各类别占比中减去总体人工智能论文的占比，得到两者的百分点差异。具体信息，见“发现”一节。

附录B：其他图表

本附录中的三张图分别展示了各国公司、非营利组织和学术机构对小数据研究的资助信息。

加上图8所示的政府实体数据，这四张图将本文研究的四种实体类型的论文资助信息进行了完整展示。

图9显示了私营部门公司对小数据研究的资助份额。与政府实体相比，美国的私营部门似乎更倾向于资助小数据而非总体人工智能研究。

数据来源：截至2021年2月12日的CSET学术文献总库

图10给出了各国非营利组织（如研究信托机构和基金会）的小数据资金趋势。在大多数类别中，与总体人工智能相比，美国和除中国之外的其他国家的非营利组织往往对小数据研究缺乏资金支持。相比之下，中国的非营利组织对小数据研究有少量资金倾斜，但人工数据生成方法除外，该领域资金投入少于总体人工智能研究。

图10 中国、美国和其他国家的非营利组织在小数据方法与总体人工智能方面的资助对比

最后，图11展示了学术机构对小数据研究的资助模式。请注意，与我们上面讨论的其他两种实体类型相比，学术机构对小数据研究和总体人工智能提供的资金百分比差异非常小，总体上不到1个百分点。因此可以得出结论，在所有国家，学术界对小数据研究的资助模式与对总体人工智能的资助模式一致。

数据来源：截至2021年2月12日的CSET学术文献总库

译者声明

小蜜蜂翻译组公益译文项目，旨在分享国外先进网络安全理念、规划、框架、技术标准与实践，将网络安全战略性文档翻译为中文，为网络安全从业人员提供参考，促进国内安全组织在相关方面的思考和交流。