我们该如何监督比人类更强的AI? | Weak-to-strong generalization

前言

2023.12.14 OpenAI发布了文章WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION,同时在OpenAI的网站上也发布了对应的博客Weak-to-strong generalization。笔者在本文对文章Weak-to-strong generalization进行浅析。

文章中提到:如今AI的能力越来越强,接近甚至已经超越人类的能力,人类已经很难监督这类超人AI了。那么该如何监督比人类更强大的超人AI呢?

研究团队通过一个简单的Demo来研究这个问题,他们发现可以使用GPT-2级别的模型来激发出GPT-4大部分的能力,使得其接近GPT-3.5的能力,即使在小模型失败的困难问题上也能正确泛化。

这可能是一个新的研究领域。

问题

作者团队相信,超级人工智能可能在未来十年之内发展起来。然而目前人类对AI系统的认识太过肤浅,以至于不知道如何可靠地引导和控制超人工智能,这对人类来说是很危险的。

试想,如果人类利用一个强人工智能撰写了十几万行代码,并投入生产环境使用,而一旦这些代码中潜藏着危险的代码,就会导致严重的后果。

在上述例子中,人类处于弱监督者的位置,而AI处于超人AI的地位。核心问题在于:如何让一个不聪明的弱监督者监督一个聪明的超人AI呢?

方法

作者团队提出的方法是:可以利用一个弱AI来监督一个强AI。

如上图所示,最左侧子图表示传统机器学习,即人类作为监督者监督弱人工智能;中间子图表明,人类如今需要监督比自己更加强大的AI,这对人类来说是困难的;右侧子图表明在作者团队的实验中,作者使用一个弱的AI来监督一个相对较强的AI。

一方面,从直觉上来看,我们并不会期望一个强大的AI经过一个弱的AI监督之后,表现得比弱AI更好。因为弱AI可能会误导强AI。但是从另一方面讲,强AI经过预训练后,本身具备非常强大的基本能力和性能。我们只需要使用弱AI来激发出强AI潜在的知识。

那么问题来了,强AI是会被弱AI激发,从而发挥它的全部潜力;还是会被弱AI提供的不完整或有缺陷的标签所误导,导致性能更差?

注意,上文中的强AI指的是经过预训练但是没有进行任务微调的模型。

结果及结论

如上图所示,使用GPT-2(弱AI)监督的GPT4(强AI,未经微调)可以达到接近GPT3.5的水平。作者团队使用了较弱的监督,就可以激发GPT4大部分的能力。

尽管此实验较为简单,但意味着此方法在实践上是初步可行的。此外,作者还是在其他方法中看到了积极的迹象,如bootstrapping和optimal early stopping似乎显示出了潜力。

  1. 简单的人类监督如RLHF——在没有进一步工作的情况下,可能难以扩展到超人AI
  2. weak-to-strong generalization是可行的

此项研究很有创新性和启发性,人们总是在思考如何提高AI的能力,但是却鲜有人考虑当AI超越人类之后该如何监督超人AI。正如文中提到的 “This opens up a new research direction that allows us to directly tackle a central challenge of aligning future superhuman models while making iterative empirical progress today.” 这是一个新的领域,有许多的low hanging fruit等待着学者们去探索。