我们该如何监督比人类更强的AI？ | Weak-to-strong generalization

Yuyao Ge 葛钰峣

Dec 15, 2023 1 min read 笔记

前言

2023.12.14 OpenAI发布了文章WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION，同时在OpenAI的网站上也发布了对应的博客Weak-to-strong generalization。笔者在本文对文章Weak-to-strong generalization进行浅析。

文章中提到：如今AI的能力越来越强，接近甚至已经超越人类的能力，人类已经很难监督这类超人AI了。那么该如何监督比人类更强大的超人AI呢？

研究团队通过一个简单的Demo来研究这个问题，他们发现可以使用GPT-2级别的模型来激发出GPT-4大部分的能力，使得其接近GPT-3.5的能力，即使在小模型失败的困难问题上也能正确泛化。

这可能是一个新的研究领域。

问题

作者团队相信，超级人工智能可能在未来十年之内发展起来。然而目前人类对AI系统的认识太过肤浅，以至于不知道如何可靠地引导和控制超人工智能，这对人类来说是很危险的。

试想，如果人类利用一个强人工智能撰写了十几万行代码，并投入生产环境使用，而一旦这些代码中潜藏着危险的代码，就会导致严重的后果。

在上述例子中，人类处于弱监督者的位置，而AI处于超人AI的地位。核心问题在于：如何让一个不聪明的弱监督者监督一个聪明的超人AI呢？

方法

作者团队提出的方法是：可以利用一个弱AI来监督一个强AI。

如上图所示，最左侧子图表示传统机器学习，即人类作为监督者监督弱人工智能；中间子图表明，人类如今需要监督比自己更加强大的AI，这对人类来说是困难的；右侧子图表明在作者团队的实验中，作者使用一个弱的AI来监督一个相对较强的AI。

一方面，从直觉上来看，我们并不会期望一个强大的AI经过一个弱的AI监督之后，表现得比弱AI更好。因为弱AI可能会误导强AI。但是从另一方面讲，强AI经过预训练后，本身具备非常强大的基本能力和性能。我们只需要使用弱AI来激发出强AI潜在的知识。

那么问题来了，强AI是会被弱AI激发，从而发挥它的全部潜力；还是会被弱AI提供的不完整或有缺陷的标签所误导，导致性能更差？

注意，上文中的强AI指的是经过预训练但是没有进行任务微调的模型。

结果及结论

如上图所示，使用GPT-2（弱AI）监督的GPT4（强AI，未经微调）可以达到接近GPT3.5的水平。作者团队使用了较弱的监督，就可以激发GPT4大部分的能力。

尽管此实验较为简单，但意味着此方法在实践上是初步可行的。此外，作者还是在其他方法中看到了积极的迹象，如bootstrapping和optimal early stopping似乎显示出了潜力。

简单的人类监督如RLHF——在没有进一步工作的情况下，可能难以扩展到超人AI
weak-to-strong generalization是可行的

此项研究很有创新性和启发性，人们总是在思考如何提高AI的能力，但是却鲜有人考虑当AI超越人类之后该如何监督超人AI。正如文中提到的 “This opens up a new research direction that allows us to directly tackle a central challenge of aligning future superhuman models while making iterative empirical progress today.” 这是一个新的领域，有许多的low hanging fruit等待着学者们去探索。

Notes LLM

我们该如何监督比人类更强的AI？ | Weak-to-strong generalization

前言

问题

方法

结果及结论

Yuyao Ge 葛钰峣

Ph.D Student