走向CV的通用人工智能：从GPT和大型语言模型中汲取的经验教训 (上)

CV研究院 | 2023-06-23 15:42:03 阅读：673

总述

最近，由大型语言模型（LLM）提供支持的聊天系统出现了，并迅速成为在自然语言处理（NLP）中实现AGI的一个有前途的方向，但在计算机视觉（CV）中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂，但我们有兴趣找到具体的原因，并从GPT和LLM中吸取经验来解决这个问题。

在今天分享中，从AGI的概念定义开始，简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们，统一是CV的下一个重要目标。但是，尽管在这个方向上做出了各种努力，CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出，CV的本质弱点在于缺乏从环境中学习的范式，而NLP已经完成了文本世界中的任务。然后，我们想象一个管道，将CV算法放在世界范围的可交互环境中，对其进行预训练，以预测其动作的未来帧，然后用指令对其进行微调，以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模，为此我们分享了我们对未来研究方向的看法。

背景

世界正在见证一场迈向通用人工智能（AGI）的史诗之旅，我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说，在自然语言处理（NLP）中，计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为，这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型（LLM）之上，并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块，可以完成解决数学问题、生成可视化内容等复杂任务，体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点（例如，讲述科学事实和被点名的人之间的关系），但这些开创性的研究已经显示出一种明显的趋势，即将NLP中的大多数任务统一为一个系统，这反映了对AGI的追求。

与NLP中统一的快速进展相比，计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务，如视觉识别、跟踪、生成等，大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统，它可以通过统一的提示机制处理广泛的CV任务，但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如，为了报告目标检测和语义分割中的高识别精度，最好的策略是在用于图像分类的强大主干上设计特定的头部模块，并且这种设计通常不会转移到其他问题。

因此，出现了两个问题：（1）为什么CV的统一如此困难？（2）为了实现这一目标，可以从GPT和LLM中学到什么？

为了回答这些问题，重新审视GPT，并将其理解为在文本世界中建立一个环境，并允许算法从交互中学习。CV研究缺乏这样的环境。因此，算法无法模拟世界，因此它们对世界进行采样，并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后，代理任务不再有意义地表明CV算法的能力；越来越明显的是，继续追求对它们的高精度可以使我们远离AGI。

通用人工智能

人工智能是一场用机器或一套数学算法复制人类智能的持久战。现代人工智能于1956年在Dartmouth研讨会上正式提出，社区为此开发了大量方法。实现人工智能至少有两种不同的途径：（i）符号人工智能，它试图将世界形成一个符号系统，并使用逻辑算法对其进行推理；（ii）统计人工智能，它试图建立一个数学函数来表述输入和输出之间的关系，但该函数可能是近似的，甚至是无法解释的。在过去的十年里，第二条道路占据了主导地位，特别是深度学习理论，这是连接主义方法思想的一部分。

简而言之，AGI就是学习一个广义函数a=π（s）。尽管形式很简单，但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里，深度学习提供了一种有效而统一的方法：人们可以训练深度神经网络来近似函数a=π（s），而不知道它们之间的实际关系。强大的神经网络架构（如transformer）的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难，包括但不限于以下问题。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。