论文解读 | TTA:大模型回答置信度评估新方法
Title: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers
Institute: National University of Singapore, University of Science and Technology of China, Meta AI
Authors: Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua
Arxiv Link: https://arxiv.org/abs/2403.09972
Date: 2024.3.15
摘要
对于大型语言模型(LLM),尤其是黑盒模型,评估输出的可信度是一项关键工作。由于LLM对生成的错误答案过于自信,导致现有的LLM可信度评估通常不够准确。现有的方法解决过度自信问题存在明显的限制,这些方法仅考虑LLM生成的一个答案的可信度。为了解决这个限制,本文提出了一种新的方法,全面评估多个候选答案的可信度,以减轻对于错误答案的过度自信。
介绍
置信度评估的核心是实现校准,确保置信水平与实际答案的准确性相一致。
黑盒LLM实现校准的关键在于解决过度自信的问题。LLM在信任自己生成的回答方面存在固有偏见,这使得大模型很难真正辨别出自己的回答是否正确,并且往往倾向于给自己的回答分配很高的置信分数。
目前有两种研究范式:
-
第一种范式(self-consistency)认为过度自信部分由问题(prompt)和答案之间的上下文偏差引起。为了解决这个问题,研究者尝试通过构建各种prompt模板和多样化的问题重述来进行prompt集成。
-
第二种范式(verbalized methods)集中于LLM的自我评估,设计了诸如询问LLM关于答案真实性的指令或思维链(Chain-of-Thought, CoT)推理的方法。
然而上述研究的局限性在于:这些研究方法通常只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。
为了解决这一局限性,本文引入了一种新的多答案评估范例,让大模型考虑多个候选答案,以增强置信度校准。
问题定义
给定由问题 $q$ 和prompt $p$ 组成的输入,其中包括一条指令和可选的上下文示例,LLM可以生成答案 $a$。随后,置信度估计旨在获得LLM对 $a$ 的置信水平,以置信分数 $c \in R$ 的形式表示。将置信度评估策略表示为 $CE(·)$ ,这个过程可被形式化表述为: $$ a = LLM(p(q)), \ c = CE(LLM(·), p(q), a). $$
前人方法
如今,问题聚焦于如何设计置信度评估函数$CE(·)$。
一个显而易见的方法是利用LLM的输出概率来估计置信度分数,形式化表述为 $c = Pr(LLM(·), p(q), a)$。然而,本文设定在黑盒状态下,因此模型内部状态不可见,故此方法不可用。
对于黑盒状态,目前已有的两种方法为:
- 自一致性(self-consistency),如上图子图1
- 口述方法(verbalized methods),如上图子图2
对于自一致性(self-consistency)方法,其实就是同一个问题用多种表述方法多问几遍,看正确答案的比例。形式上可表示为: $$ \begin{aligned}&c=\frac{\sum_{i=1}^D \mathbb1(a_i=a)}D,\&\mathrm{where~}a_i=LLM(p(q)).\end{aligned} $$ 其中,$D>1$。
对于口述方法(verbalized methods),就是让大模型自己说几个候选回答及其对应的概率。 $$ [{a_1,c_1},…{a_K,c_K}]=LLM(p^b(q)). $$
然而上述方法只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。
本文方法
作者认为,如果LLM能够彻底比较更多候选答案的可信度,当LLM对其他答案具有强烈正确倾向的情况下,对 $a$ 的高置信度可能会减弱,从而降低过度自信的风险。
因此,作者团队提出了一种多答案评估范式TTA。
其过程包含两个步骤:
第一步:反思和证明
首先让LLM反思每个答案 $a^q_i$ 的可信度,并要求LLM找到证据 $e_i$ 来证明 $a^q_i$ 作为 $q$ 的正确答案的合理性。 $$ e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N} $$ 此步骤的合理性在于,$p^e$ 指导LLM从 $q$ 和 $a^q_i$ 中推导出理由,避免了LLM在从 $p(q)$ 到 $a$ 的生成上存在的偏见。
第二步:联合置信度估计
在对每个 $a^q_i$ 获得了相应的证据 $e_i$ 之后,我们采用 Top-$K$ 口头化方法,将这些 $e_i$ 整合起来,以获得答案 $a$ 的概率。 $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a) $$ 此处选择 Top-$K$ 口头化方法是因为它能够在一次回应中,生成一组 $K$ 个潜在答案以及其各自的概率。
其中 $K$ 被设置为答案的数量 $N$ 。
整个过程可被形式化表述为: $$ c = Pr(LLM(\cdot), p^v(q, [e_1, …, e_N]), a), \ \notag \text{where } e_i = LLM(p^e(q, a^q_i)), i \in {1, …, N}. $$ 流程如上图子图3。
实验
Datasets & Models
本文在三个任务上使用六个数据集进行实验。
情感分析(SA)使用了IMDB和Flipkart,自然语言推理(NLI)使用了 SNLI 和 HANS,常识问题回答(CQA)使用了CommonsenseQA 和PIQA。
对于大模型,本文使用了OpenAI的GPT-3.5、GPT-4和ZhipuAI的GLM-4。
Baseline
Self-cons、CoT-cons、Top-K Verb、Hybrid、Self-detect、CAPE、P(True)。
Evaluation
AUROC和PRAUC,取值范围都是从0到1。
Result
- 答案的准确性可以通过置信度分数更好地区分,实现更好的校准效果。
- TTA在选择性预测场景中具有很强的应用潜力。
- 不同的目标答案,LLMs的参数敏感性也是不同的。
- TTA在校准性能方面取得了比其他方法更好的表现。