论文解读 | TTA:大模型回答置信度评估新方法

Title: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers
Institute: National University of Singapore, University of Science and Technology of China, Meta AI
Authors: Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua
Arxiv Link: https://arxiv.org/abs/2403.09972
Date: 2024.3.15
摘要
对于大型语言模型(LLM),尤其是黑盒模型,评估输出的可信度是一项关键工作。由于LLM对生成的错误答案过于自信,导致现有的LLM可信度评估通常不够准确。现有的方法解决过度自信问题存在明显的限制,这些方法仅考虑LLM生成的一个答案的可信度。为了解决这个限制,本文提出了一种新的方法,全面评估多个候选答案的可信度,以减轻对于错误答案的过度自信。
介绍
置信度评估的核心是实现校准,确保置信水平与实际答案的准确性相一致。
黑盒LLM实现校准的关键在于解决过度自信的问题。LLM在信任自己生成的回答方面存在固有偏见,这使得大模型很难真正辨别出自己的回答是否正确,并且往往倾向于给自己的回答分配很高的置信分数。
目前有两种研究范式:
-
第一种范式(self-consistency)认为过度自信部分由问题(prompt)和答案之间的上下文偏差引起。为了解决这个问题,研究者尝试通过构建各种prompt模板和多样化的问题重述来进行prompt集成。
-
第二种范式(verbalized methods)集中于LLM的自我评估,设计了诸如询问LLM关于答案真实性的指令或思维链(Chain-of-Thought, CoT)推理的方法。
然而上述研究的局限性在于:这些研究方法通常只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。
为了解决这一局限性,本文引入了一种新的多答案评估范例,让大模型考虑多个候选答案,以增强置信度校准。
问题定义
给定由问题
前人方法
如今,问题聚焦于如何设计置信度评估函数
一个显而易见的方法是利用LLM的输出概率来估计置信度分数,形式化表述为

对于黑盒状态,目前已有的两种方法为:
- 自一致性(self-consistency),如上图子图1
- 口述方法(verbalized methods),如上图子图2
对于自一致性(self-consistency)方法,其实就是同一个问题用多种表述方法多问几遍,看正确答案的比例。形式上可表示为:
对于口述方法(verbalized methods),就是让大模型自己说几个候选回答及其对应的概率。
然而上述方法只考虑LLM生成的单一目标答案,由于大模型对自己的回答表现出过度自信,它们可能仍会对错误答案保持偏见。
本文方法
作者认为,如果LLM能够彻底比较更多候选答案的可信度,当LLM对其他答案具有强烈正确倾向的情况下,对
因此,作者团队提出了一种多答案评估范式TTA。
其过程包含两个步骤:
第一步:反思和证明
首先让LLM反思每个答案
第二步:联合置信度估计

在对每个
其中
整个过程可被形式化表述为:
实验
Datasets & Models
本文在三个任务上使用六个数据集进行实验。
情感分析(SA)使用了IMDB和Flipkart,自然语言推理(NLI)使用了 SNLI 和 HANS,常识问题回答(CQA)使用了CommonsenseQA 和PIQA。
对于大模型,本文使用了OpenAI的GPT-3.5、GPT-4和ZhipuAI的GLM-4。
Baseline
Self-cons、CoT-cons、Top-K Verb、Hybrid、Self-detect、CAPE、P(True)。
Evaluation
AUROC和PRAUC,取值范围都是从0到1。
Result

- 答案的准确性可以通过置信度分数更好地区分,实现更好的校准效果。
- TTA在选择性预测场景中具有很强的应用潜力。
- 不同的目标答案,LLMs的参数敏感性也是不同的。
- TTA在校准性能方面取得了比其他方法更好的表现。