预测AI未来：别被眼前迷惑！，打破常规：正确预测AI发展趋势

本文围绕预测AI系统未来能力及其经济和社会影响的方法展开探讨，分析了不同方法的特点、局限性，并给出更合理的预测思路。

预测AI也得讲究科学道理

在尝试对AI系统未来的能力以及它将引发的经济和社会影响进行预测时，通常会采用两种截然不同的方法。

其一，是回顾过往以及事物变化的速率，接着把当下的情形外推至未来。这种方法侧重于分析过去的数据和发展趋势，从而对未来的走向进行推测。比如，通过研究过去几年AI在某些特定领域的发展速度和成果，来预估未来在这些领域或相关领域的发展情况。

其二，是基于第一性原理推理。这需要综合考虑人脑的能力与资源使用状况、不同领域训练数据的可获取性、获取不同任务奖励信号的成本等诸多因素，以此来评估自动化任务的难度。这种方法更为理论化，它依靠对基本事实的理解来开展逻辑推理。例如，深入研究人脑在进行复杂认知任务时的机制和所需资源，以此为基础分析AI实现类似功能的可能性和难度。

这两种方法代表了预测AI能力的两种根本性不同的途径。

第一种方法往往更受经济学家的青睐。这是因为它依赖于历史数据和趋势分析，相对便于理解和应用。经济学家可以通过对过去经济数据中与AI相关部分的分析，来预测AI未来对经济的影响，如就业结构的变化、产业发展的趋势等。

而第二种方法则更适合用于深入探究技术的可行性及其限制。它能够为我们提供关于AI发展可能遭遇的技术障碍的深刻洞察。例如，通过分析当前技术在数据处理、算法优化等方面的局限性，来预测AI在实现某些复杂任务时可能面临的困难。

不过，每种方法都有其独特的优势和局限性。在实际操作中，为了获得更全面的视角，可能会将这两种方法结合起来使用。

采用第一种方法进行预测的人，常常会做出这样的假设：在未来，AI最容易完成的任务，会与它当时能够完成的任务类似。就像在一篇2013年出版的经济学论文中，Frey和Osborne试图估算不同职业对计算机化的敏感程度，其中有一段话很好地概括了这一观点：“计算机能够执行的任务最终取决于程序员编写一套程序或规则的能力，以便在各种可能的情况下正确引导技术。因此，当一个问题可以被明确指定——也就是说，成功的标准是可量化且可以被轻松评估时，计算机相较于人类劳动将表现得更加高效。”

这一观点反映了当时AI系统的能力状况。在2012年至2019年间，适用于预测任务的监督学习方法在该领域占据主导地位。于是，一些人便简单地认为AI的未来仅仅是拥有更强大的预测能力，就如同2010年代中期的监督学习那样。从《预测机器》中可以看到一些相关引用，清晰地说明了这一点：“我们所见到的进步主要发生在机器学习领域，而机器学习更准确地说是一种统计学的进步，尽管是非常重大的进步；具体来说，是在用于生成预测的统计方法上的进步。新的AI技术将极大降低什么成本？预测。因此，正如经济学所告诉我们的，不仅预测的使用将大幅增加，我们还会看到在一些新领域中，它令人惊讶地适用。”

然而，就像Frey和Osborne对计算机化的预测一样，上述新推测后来也被AI领域的发展所推翻。特别是AI领域向无监督学习的转变，以及如今所谓的「生成式AI」（Generative AI）的兴起。

与上述例子不同，AI研究者和未来学家常常采用从第一性原理出发的推理方法。其中最著名的例子可能就是Ray Kurzweil。

摩尔定律

外推预测的风险

运用简单的模型将过去的数据外推到未来，这是一种经过验证的预测方法，在许多领域都能发挥作用。但在AI领域，如果仅仅依赖这种方法，就存在严重的局限性。

最主要的问题在于，这类方法过度依赖AI过去和当前的能力，从而容易低估未来AI的突破，尤其是在当前完全无法胜任的任务上。采用这种方法时，即便预测者有意识地试图考虑AI未来可能的进步，仍然倾向于认为未来的AI只是现在AI的增强版，其能力范围会逐步扩展到与现有任务相邻的领域。

目前，这种错误的最新表现形式是将AI的最新发展局限在「生成式AI」（Generative AI）的框架内。就像过去「预测机器」的概念一样，这种狭隘的视角让人误以为，AI未来的能力可以通过简单推测「今天的图像生成器和聊天机器人会变得更便宜、更高效」来预测。这种方法的局限性不容忽视。

为了说明并提醒大家AI发展的不可预测性，下面列出一张表格，展示了2016年人们认为AI重要能力的清单。对比今天的发展，你会发现当时的许多预测都已过时。

Acemoglu借鉴了其他几位作者的研究，对不同经济任务受LLM自动化影响的程度以及在这些受影响任务上可能合理预期的成本节约进行了估算。Acemoglu估计，由于AI的影响，未来十年经济产出将增长0.7%。这一数字是结合三个不同的估算得出的：

（1）Eloundou等人（2023年）的估计表明，在美国按工资账单计算的大约20%的任务暴露于由大语言模型实现的自动化之下。

（2）Svanberg等人（2024年）估计，在当前暴露于计算机视觉系统自动化的任务中，只有23%的任务实际进行自动化是具有成本效益的。

（3）Acemoglu假设，在这些自动化任务上，相较于由人类执行这些任务，平均可以节省大约30%的劳动力成本。

（4）Acemoglu进一步估计，这些任务成本的大约50%实际上是劳动力成本，因此总成本节约约为15%（即30%的劳动力成本节约乘以劳动力成本占总成本的50%）。

最后，关于这种自动化对GDP影响的粗略计算方法是：首先计算成本减少的任务比例，大约为0.2 * 0.23 = 4.6%。然后，考虑到生产力提升的隐含值约为1 / 0.85 = 17.6%，这是因为成本节约了15%，意味着原本的成本效率提高到了100 / (100 – 15) ≈ 117.6%，即提升了17.6%。最后，将这两个数值相乘（4.6% * 17.6%），得出总全要素生产率影响大约为0.8%。这个分析为我们提供了对自动化技术可能带来的经济效益的量化视角，尽管实际情况可能会因多种因素而有所不同。

推理模型超越数学性能的历史趋势

从先验角度来看，在未来十年中，我们有理由期待会出现许多不连续性和突然涌现的能力。因此，尽管基于当前AI的能力进行预测似乎是一种更为稳妥和合理的方法，但实际上这种方法很可能严重不准确。相反，允许技术进步突然加速和新能力出现的更具推测性的方法，可能会做出更好的预测。

有什么替代方法吗？

无法回避的问题是，预测未来本身就极具挑战性，尤其是在缺乏明确趋势可供外推的情况下。例如，目前缺乏针对远程办公任务和机器人技术的高质量基准测试，即使有这样的基准测试，也会发现当前系统在这些任务上表现非常差，而线性外推可能会将它们的成熟期推迟到几十年甚至几百年之后。这显然不是一种合理的方式来预测AI何时能在这些任务上表现出色，因为我们一再看到，基准测试的分数并不是时间的线性函数。

参考人类大脑预测AI能力

对于那些「尚未涌现」的任务——即人类可以完成但当前AI完全无法完成的任务，预测应该参考人类大脑及其资源需求所提供的存在性证明。

对于人类大脑能够执行的认知任务，至少需要满足以下条件才足以构建能够执行该任务的神经网络：

1、运行时计算能力：1e15 FLOP/s，这是估计大脑执行计算的大致能力。

2、训练计算量：1e24 FLOP，人类在30岁之前大约存活了10亿秒。

3、训练算法：大小远小于100MB，并且进化搜索算法变体所需的计算量远小于1e45 FLOP。大小限制来自基因组的大小，而搜索计算限制则来自进化过程中可能发生的有效计算的热力学极限。

4、训练数据量：与人类在终身学习过程中接触到的数据量相当。

这些条件为构建能够执行类似人类任务的AI系统提供了一个理论上的下限。在这些目标中，在大多数任务上，目前的新进展是能满足条件1、2和4。要知道，直到大约2年前，AI系统的训练计算能力才突破1e24 FLOP，达到了条件2。而尚未拥有展现出超越人类能力的AI系统，这表明在许多领域，算法仍逊色于人类大脑，还没有达到条件3。

2030年AGI可能性：10% – 20%

搜索满足条件3算法的实际算力需求，难以确定，也难以消除。因此保守的估计是：在发现能超越人脑的算法上，需要投入的计算量，在目前累计的计算量（可能在1e26到1e30 FLOP之间）和1e45 FLOP之间均匀分布。预计到本年代末，累计计算量将增加大约1000倍。从目前的情况来看，这意味着人类大约有20%的机会找到正确的算法。即使考虑到模型的不确定性，把这个概率减半，到2030年实现人类水平的AI的可能性仍有10%。

这甚至还没有考虑到以下可能性：与进化不同，人类能够在算法搜索、模型训练和模型推理之间进行权衡，并将训练计算量分摊到模型的所有部署实例中。这意味着较差的算法，可能通过更多的训练和推理计算来弥补。事实上，Ege Erdil预计首批达到人类水平的AI系统会这样做。考虑到这一点，概率应该会显著高于10%（尽管具体高多少，还不清楚）。

结合Moravec悖论，我们对AI在哪些任务上会首先达到人类水平有了一个预期：这些任务正是AI相对于人类具有更大数据优势和较小算法劣势的任务。例如，尽管Eloundou等人2023年的论文得出结论认为，需要科学技能的任务，预计会抵抗LLM自动化。但Ege Erdil认为：「这种更广泛的视角实际上表明，这反而是它更容易受到AI自动化影响的原因。」原因是，相对于感觉运动和感知任务，科学推理并不是那种人类具有高效算法的任务。

结论

基本的结论是，AI目前能做什么并不是关键所在。如果想预测AI未来几年之后的发展，仅仅以当前AI系统的能力，甚至当前这些能力的变化速度作为锚点，并不是一个明智的选择。相反，应该从各种任务的内在难度出发来思考，尽管当前AI系统在许多任务上完全无法胜任，但这恰恰反映了使用AI自动化这些任务所需的资源需求。当这样做时，就会得到对AI进展更为乐观的图景，这更符合近期的历史。许多人现在提出的关于「生成式AI」系统能力本质上受限的论点，如果放在2016年用来预测当时AI系统的局限性，可能会表现得很糟糕。如果我们希望我们的预测更准确，就不应该依赖那些过去表现不佳的预测方法。