论文解读 | TTA:大模型回答置信度评估新方法

Yuyao Ge 葛钰峣

Mar 25, 2024 2 min read 论文分享

Title: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers

Institute: National University of Singapore, University of Science and Technology of China, Meta AI

Authors: Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua

Arxiv Link: https://arxiv.org/abs/2403.09972

Date: 2024.3.15

摘要

对于大型语言模型（LLM），尤其是黑盒模型，评估输出的可信度是一项关键工作。由于LLM对生成的错误答案过于自信，导致现有的LLM可信度评估通常不够准确。现有的方法解决过度自信问题存在明显的限制，这些方法仅考虑LLM生成的一个答案的可信度。为了解决这个限制，本文提出了一种新的方法，全面评估多个候选答案的可信度，以减轻对于错误答案的过度自信。

介绍

置信度评估的核心是实现校准，确保置信水平与实际答案的准确性相一致。

黑盒LLM实现校准的关键在于解决过度自信的问题。LLM在信任自己生成的回答方面存在固有偏见，这使得大模型很难真正辨别出自己的回答是否正确，并且往往倾向于给自己的回答分配很高的置信分数。

目前有两种研究范式：

第一种范式（self-consistency）认为过度自信部分由问题（prompt）和答案之间的上下文偏差引起。为了解决这个问题，研究者尝试通过构建各种prompt模板和多样化的问题重述来进行prompt集成。
第二种范式（verbalized methods）集中于LLM的自我评估，设计了诸如询问LLM关于答案真实性的指令或思维链（Chain-of-Thought, CoT）推理的方法。

然而上述研究的局限性在于：这些研究方法通常只考虑LLM生成的单一目标答案，由于大模型对自己的回答表现出过度自信，它们可能仍会对错误答案保持偏见。

为了解决这一局限性，本文引入了一种新的多答案评估范例，让大模型考虑多个候选答案，以增强置信度校准。

问题定义

给定由问题 $q$ 和prompt $p$ 组成的输入，其中包括一条指令和可选的上下文示例，LLM可以生成答案 $a$。随后，置信度估计旨在获得LLM对 $a$ 的置信水平，以置信分数 $c \in R$ 的形式表示。将置信度评估策略表示为 $CE(·)$ ，这个过程可被形式化表述为： $$ a = LLM(p(q)), \ c = CE(LLM(·), p(q), a). $$

前人方法

如今，问题聚焦于如何设计置信度评估函数$CE(·)$。

一个显而易见的方法是利用LLM的输出概率来估计置信度分数，形式化表述为 $c = Pr(LLM(·), p(q), a)$。然而，本文设定在黑盒状态下，因此模型内部状态不可见，故此方法不可用。

对于黑盒状态，目前已有的两种方法为：

自一致性（self-consistency），如上图子图1
口述方法（verbalized methods），如上图子图2

对于自一致性（self-consistency）方法，其实就是同一个问题用多种表述方法多问几遍，看正确答案的比例。形式上可表示为： $$ \begin{aligned}&c=\frac{\sum_{i=1}^D \mathbb1(a_i=a)}D,\&\mathrm{where~}a_i=LLM(p(q)).\end{aligned} $$ 其中，$D>1$。

对于口述方法（verbalized methods），就是让大模型自己说几个候选回答及其对应的概率。 $$ [{a_1,c_1},…{a_K,c_K}]=LLM(p^b(q)). $$

然而上述方法只考虑LLM生成的单一目标答案，由于大模型对自己的回答表现出过度自信，它们可能仍会对错误答案保持偏见。

本文方法

作者认为，如果LLM能够彻底比较更多候选答案的可信度，当LLM对其他答案具有强烈正确倾向的情况下，对 $a$ 的高置信度可能会减弱，从而降低过度自信的风险。

因此，作者团队提出了一种多答案评估范式TTA。

其过程包含两个步骤：

第一步:反思和证明

首先让LLM反思每个答案 $a^q_i$ 的可信度，并要求LLM找到证据 $e_i$ 来证明 $a^q_i$ 作为 $q$ 的正确答案的合理性。 $$ e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N} $$ 此步骤的合理性在于，$p^e$ 指导LLM从 $q$ 和 $a^q_i$ 中推导出理由，避免了LLM在从 $p(q)$ 到 $a$ 的生成上存在的偏见。

第二步:联合置信度估计

在对每个 $a^q_i$ 获得了相应的证据 $e_i$ 之后，我们采用 Top-$K$ 口头化方法，将这些 $e_i$ 整合起来，以获得答案 $a$ 的概率。 $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a) $$ 此处选择 Top-$K$ 口头化方法是因为它能够在一次回应中，生成一组 $K$ 个潜在答案以及其各自的概率。

其中 $K$ 被设置为答案的数量 $N$ 。

整个过程可被形式化表述为： $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a), \ \notag \text{where } e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N}. $$ 流程如上图子图3。

实验

Datasets & Models

本文在三个任务上使用六个数据集进行实验。

情感分析（SA）使用了IMDB和Flipkart，自然语言推理（NLI）使用了 SNLI 和 HANS，常识问题回答（CQA）使用了CommonsenseQA 和PIQA。

对于大模型，本文使用了OpenAI的GPT-3.5、GPT-4和ZhipuAI的GLM-4。

Baseline

Self-cons、CoT-cons、Top-K Verb、Hybrid、Self-detect、CAPE、P(True)。

Evaluation

AUROC和PRAUC，取值范围都是从0到1。

Result

GPT-3.5上比较方法的结果

答案的准确性可以通过置信度分数更好地区分，实现更好的校准效果。
TTA在选择性预测场景中具有很强的应用潜力。
不同的目标答案，LLMs的参数敏感性也是不同的。
TTA在校准性能方面取得了比其他方法更好的表现。

LLM Reasoning