论文解读 | 思维链越长大模型越聪明?

Title: The Impact of Reasoning Step Length on Large Language Models

Institute: Northwestern University, University of Liverpool, New Jersey Institute of Technology, Rutgers University

Authors: Mingyu Jin, Qinkai Yu, Dong Shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du

Arxiv Link: https://arxiv.org/abs/2401.04925

Date: 2024.1.20

介绍

思维链(Chain of thought - CoT)在过去的实践中已经证明对提升大模型的推理能力有显著帮助。然而,目前还没有一项工作解释思维链长度与推理能力之间的关系。本文围绕这一核心问题,围绕CoT做了系统实验,并给出许多有意思和反直觉的结论。

结论

闲言少叙,直接上结论

  1. 对于Few-shot CoT,模型回答的准确率与推理的步数呈线性关系。步数越长,模型回答越准确。相反,减少CoT长度,即使保证链条里的关键信息与长链条相同,也会显著降低模型的准确率。
  2. 即使CoT链条中存在不正确的推理,如果保持必要的推理长度,也会产生有利的结果。也就是说,只要链条更长,即使中间步骤推错了,也会提高准确率。
  3. 简单任务需要的步数少,复杂任务需要的步数多。
  4. 即使是Zero-shot CoT,加了一句"你必须使用更多的步骤"相比于只有"让我们来一步一步思考"也会提高大模型的性能。

实验设置

Zero-shot CoT

文中的Zero-shot CoT默认设置为"Let’s think step by step",作者在本文探究其与"Let’s think step by step, you must think more steps"对llm的影响。

Few-shot CoT


如上图所示,在本文的Few-shot Cot被设置为了如下的几个步骤:

  1. Think About The Word: 作者首先让LLM思考问题中单词的意义(想好每个词啥意思再回答)。比如说对于问题"Could someone in Tokyo take a taxi to the Metropolitan Museum of Art?",如下图所示,作者会让LLM先想一想"Tokyo", “taking a taxi”, “Metropolitan Museum of Art” 都是什么意思——“Think about Tokyo… Think about taking a taxi… Think about Metropolitan Museum of Art…"。

  1. Read the question again:让LLM重读一遍问题(再审一遍题)

  2. Repeat State:让LLM对问题形成一个摘要,简化记忆,减少CoT中的其他单词的影响(提取问题中的关键信息)

  3. Self-Verificatio:增加了一个自我验证过程,根据一些基本信息来判断答案是否合理。(先自己想一下你的回答对不对)

  4. Make Equation:对于数学问题,让LLM对问题进行建模

实验及结论

步数与准确率的关系


如上图所示,每张子图的x轴为CoT链条的长度(推理步数),y轴为LLM的准确率。显然,CoT链条越长,准确率越高。这一发现横跨所有的数据集和任务。

CoT中一个环节推错了,会发生什么?

对于CoT的研究者而言,最重要的研究莫过于如何让CoT的每一步都推对,从而接近正确的答案。在这一章节,作者提出问题,如果CoT中某一链推错了,对LLM推出结果会产生什么影响呢?


如下图所示,x轴表示8类任务/数据集,两个颜色的柱状图分别表示全对的链条和包含错误回答的链条。作者发现:

  1. 对于数学问题,某一环节错了,影响很小。作者认为llm学习的是计算模式而不是计算的结果本身,因此不受影响。例子如下图所示,本图中,右侧的错误prompt将10+8的结果计算为了错误的48
  2. 对于逻辑问题,错一点会导致思维链破裂,影响很大。

压缩推理步骤,会发生什么?

这里的压缩推理步骤指的是在每个步骤,用更简短的语言来提问。结果表明压缩推理步骤导致其性能接近Zero-shot,进一步说明推理步骤和LLM的准确率重要关联。

模型的参数量对结果的影响

如下图,显而易见,参数量越大越准确。


不同的CoT生成方法区别大吗?

由于本文主要研究推理步骤对性能的影响,因此需要确认CoT中问题本身对LLM的性能没有影响。

因此,本文在LLM为GPT-3.5-turbo-1106的设置下,选择了两个数据集(MultiArith和GSM8K)和两种CoT方法(Auto CoT和Few-shot CoT)进行这项研究。

如下图所示,初步观察表明,这些修改对性能的影响微乎其微。 这一初步发现表明,在推理过程中,步骤的长度,而不是问题本身的性质,主要影响大型模型的推理能力。


评价

本文虽然难度不大,但是对CoT的评测却很全面,角度很新奇,也发现了很多有意思的结论。