论文解读 | TTA:大模型回答置信度评估新方法

Title: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers

Institute: National University of Singapore, University of Science and Technology of China, Meta AI

Authors: Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua

Arxiv Link: https://arxiv.org/abs/2403.09972

Date: 2024.3.15

摘要

对于大型语言模型(LLM),尤其是黑盒模型,评估输出的可信度是一项关键工作。由于LLM对生成的错误答案过于自信,导致现有的LLM可信度评估通常不够准确。现有的方法解决过度自信问题存在明显的限制,这些方法仅考虑LLM生成的一个答案的可信度。为了解决这个限制,本文提出了一种新的方法,全面评估多个候选答案的可信度,以减轻对于错误答案的过度自信。

介绍

置信度评估的核心是实现校准,确保置信水平与实际答案的准确性相一致。

黑盒LLM实现校准的关键在于解决过度自信的问题。LLM在信任自己生成的回答方面存在固有偏见,这使得大模型很难真正辨别出自己的回答是否正确,并且往往倾向于给自己的回答分配很高的置信分数。

目前有两种研究范式:

  1. 第一种范式(self-consistency)认为过度自信部分由问题(prompt)和答案之间的上下文偏差引起。为了解决这个问题,研究者尝试通过构建各种prompt模板和多样化的问题重述来进行prompt集成。

  2. 第二种范式(verbalized methods)集中于LLM的自我评估,设计了诸如询问LLM关于答案真实性的指令或思维链(Chain-of-Thought, CoT)推理的方法。

然而上述研究的局限性在于:这些研究方法通常只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。

为了解决这一局限性,本文引入了一种新的多答案评估范例,让大模型考虑多个候选答案,以增强置信度校准。

问题定义

给定由问题 $q$ 和prompt $p$ 组成的输入,其中包括一条指令和可选的上下文示例,LLM可以生成答案 $a$。随后,置信度估计旨在获得LLM对 $a$ 的置信水平,以置信分数 $c \in R$ 的形式表示。将置信度评估策略表示为 $CE(·)$ ,这个过程可被形式化表述为: $$ a = LLM(p(q)), \ c = CE(LLM(·), p(q), a). $$

前人方法

如今,问题聚焦于如何设计置信度评估函数$CE(·)$。

一个显而易见的方法是利用LLM的输出概率来估计置信度分数,形式化表述为 $c = Pr(LLM(·), p(q), a)$。然而,本文设定在黑盒状态下,因此模型内部状态不可见,故此方法不可用。


对于黑盒状态,目前已有的两种方法为:

  • 自一致性(self-consistency),如上图子图1
  • 口述方法(verbalized methods),如上图子图2

对于自一致性(self-consistency)方法,其实就是同一个问题用多种表述方法多问几遍,看正确答案的比例。形式上可表示为: $$ \begin{aligned}&c=\frac{\sum_{i=1}^D \mathbb1(a_i=a)}D,\&\mathrm{where~}a_i=LLM(p(q)).\end{aligned} $$ 其中,$D>1$。

对于口述方法(verbalized methods),就是让大模型自己说几个候选回答及其对应的概率。 $$ [{a_1,c_1},…{a_K,c_K}]=LLM(p^b(q)). $$

然而上述方法只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。

本文方法

作者认为,如果LLM能够彻底比较更多候选答案的可信度,当LLM对其他答案具有强烈正确倾向的情况下,对 $a$ 的高置信度可能会减弱,从而降低过度自信的风险。

因此,作者团队提出了一种多答案评估范式TTA。

其过程包含两个步骤:

第一步:反思和证明

首先让LLM反思每个答案 $a^q_i$ 的可信度,并要求LLM找到证据 $e_i$ 来证明 $a^q_i$ 作为 $q$ 的正确答案的合理性。 $$ e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N} $$ 此步骤的合理性在于,$p^e$ 指导LLM从 $q$ 和 $a^q_i$ 中推导出理由,避免了LLM在从 $p(q)$ 到 $a$ 的生成上存在的偏见。

第二步:联合置信度估计


在对每个 $a^q_i$ 获得了相应的证据 $e_i$ 之后,我们采用 Top-$K$ 口头化方法,将这些 $e_i$ 整合起来,以获得答案 $a$ 的概率。 $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a) $$ 此处选择 Top-$K$ 口头化方法是因为它能够在一次回应中,生成一组 $K$ 个潜在答案以及其各自的概率。

其中 $K$ 被设置为答案的数量 $N$ 。

整个过程可被形式化表述为: $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a), \ \notag \text{where } e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N}. $$ 流程如上图子图3。

实验

Datasets & Models

本文在三个任务上使用六个数据集进行实验。

情感分析(SA)使用了IMDB和Flipkart,自然语言推理(NLI)使用了 SNLI 和 HANS,常识问题回答(CQA)使用了CommonsenseQA 和PIQA。

对于大模型,本文使用了OpenAI的GPT-3.5、GPT-4和ZhipuAI的GLM-4。

Baseline

Self-cons、CoT-cons、Top-K Verb、Hybrid、Self-detect、CAPE、P(True)。

Evaluation

AUROC和PRAUC,取值范围都是从0到1。

Result


GPT-3.5上比较方法的结果
  1. 答案的准确性可以通过置信度分数更好地区分,实现更好的校准效果。
  2. TTA在选择性预测场景中具有很强的应用潜力。
  3. 不同的目标答案,LLMs的参数敏感性也是不同的。
  4. TTA在校准性能方面取得了比其他方法更好的表现。