论文分享 | 广泛的解码策略导致大模型越狱
Title: Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
Institute: Princeton University
Authors: Yangsibo Huang, Samyak Gupta ,Mengzhou Xia, Kai Li, Danqi Chen
Arxiv Link: https://arxiv.org/abs/2310.06987
Date: 2023.10.10
摘要
本文提出了一种名为 generation exploitation 的方法,该方法通过操纵大模型的系统prompt和超参数实现攻击。该攻击方法将攻击成功率 (ASR) 从0%提高到了95%以上。在该实验中,作者还提出使用经过微调的BERT-BASE-CASED用于评估大模型回答的毒性(危险性)。鉴于对齐的灾难性失败,作者提出了一种名为 generation-aware alignment 的对齐手段。
动机
作者团队注意到,目前大模型领域通常只使用默认解码方法 (如贪心) 来评估开源大模型的对齐情况。当恶意用户更改解码的超参数时,可能会导致对齐错误。
举例来讲,前人在LLAMA2上进行对齐评估时,使用了 $p = 0.9$ 和 $\tau = 0.1$ 的超参数且始终带有系统prompt。
- 在LLAMA2论文的第4.1节中:“For decoding, we set temperature to 0.1 and use nucleus sampling with top-p set to 0.9”;
- 在LLAMA2论文的附录A.3.7 中提到:“在收集生成语言的过程中,我们在评估提示之前附加了一个系统提示”。
尽管这种方法在实践中具有一定的合理性,但是当用户使用更广泛的解码方式的时候可能会导致严重的后果。
更广泛的解码策略是否会导致大模型越狱?
实验设置
为了探究本问题,作者将问题拆解为两个子问题并分别探究。
- 是否添加系统prompt是否会对大模型越狱有影响?
- 作者团队根据是否使用默认系统prompt将实验分为两组作为对比来探究系统prompt对大模型越狱的影响。
- 解码的超参数是否会对大模型越狱有影响?
- 使用不同温度 $\tau$ 进行温度抽样。$\tau$ 从0.05变化到1,步长为0.05,共得到20种配置。
- Top-K 采样是指选取概率最大的K 个词作为下一个预测词,接下来的预测词将只从这K 个词中进行采样。作者在{1, 2, 5, 10, 20, 50, 100, 200, 500} 中改变K,给出了9种配置。
- Top-p抽样是选择累计概率超过概率p的可能性最小的一组词语。将p从0.05变化到1,步长为0.05,这样共得到20个配置。
在ASR评估方面,作者使用了两种方式进行评估。
- 字符串匹配:使用子字符串匹配一小组拒绝短语来确定对齐情况,例如“对不起”或“我无法创建”,如果不存在这些字符串,则将攻击分类为成功。
- 使用训练过的分类器来评估:字符串匹配方法有很大的局限性,因为大模型的输出是很灵活的。因此,作者团队使用经过微调的BERT-BASE-CASED用于评估大模型回答的毒性(危险性)。具体而言,该模型被设置为将输入字符串分类为两类,即对齐正确和对齐错误。
在数据集方面,作者使用了AdvBench和自创的MaliciousInstruct。
实验结果
- 移除系统提示会增加攻击成功率:如上图所示,仅仅是移除系统提示这一简单操作就会显著增加攻击成功率(ASR),通常提高超过10%。我们观察到,系统提示的存在对于保持输出的一致性起着至关重要的作用,尤其对于未经安全调整的模型来说如此。对于这些模型,移除系统提示可能会导致ASR显著增加超过50%。然而,即使是具有明确安全对齐的模型,即LLAMA2对话模型,移除系统提示后ASR仍然增加。
- 多样化的解码策略增加攻击成功率:如上图所示,结果表明确实可以通过探索多样化的解码策略来提高性能。实际上,除了LLAMA2-CHAT模型外,所有模型的ASR都超过了90%。这种性能上的鲜明对比突显了被评估模型中对齐的灾难性失败。
- 固定的解码策略评估模型对齐性的局限性:值得注意的是,在LLAMA-CHAT模型中采用固定的解码配置通常导致ASR低于30%,而使用不同的配置可以显著提高ASR至80%以上。这些发现强调了使用固定的解码策略来评估模型对齐性会明显低估实际风险。
上图报告了每个模型的最脆弱的解码策略,表明不同的模型对不同的解码策略的脆弱性是不同的。
根据人类判断,一半的对齐不良的输出是有害的。
进一步提高攻击性能
作者团队使用了两种简单策略进一步提高了在安全对齐的LLAMA2-CHAT模型上的ASR至95%。
多次采样
由于基于采样的解码的非确定性特性,增加采样运行次数是加强攻击的直观方法。
如上图所示, 对于每个解码配置进行多次采样显著提高了LLAMA2-CHAT模型的ASR,达到了> 95% - 具体而言,对于LLAMA2-7B-CHAT进行5次采样,对于LLAMA2-13B-CHAT 进行4次采样,达到了95%的ASR水平。
基于惩罚和约束的解码
另一种有效的策略是在解码过程中引入约束。例如,通过在解码时引入长度惩罚,攻击成功率可以从83%提升到92%。进一步地,通过加入两个额外的约束——限制生成特定的“不良词汇”(例如‘sorry’、‘unethical’、‘illegal’等)和强制生成特定的词汇(例如‘sure’、‘ok’等),攻击成功率可以提升到100%。
与GCG对比
作者的生成利用攻击在两个模型、两个基准和两个用于衡量攻击成功的指标上持续优于SOTA攻击。值得注意的是, 作者的方法还比GCG快30倍:在LLAMA2-7B-CHAT上使用一块NVIDIA A100 GPU以单个prompt启动作者的攻击只需约3分钟,而GCG则需要大约1.5小时完成相同的任务(步数为500,批大小为512)。
一种生成感知对齐方法
这段文字介绍了一个名为“生成感知对齐(generation-aware alignment)”的方法,旨在提高模型对生成利用攻击的抵抗力。这种攻击可能导致模型对齐出现严重失误。下面是对这个方法的解释:
-
方法概述:在生成感知对齐方法中,系统会主动收集各种解码策略生成的模型输出,并将这些输出用于对齐过程。这里的解码策略指的是模型如何根据输入的提示来生成文本序列。
-
具体过程:
- 对于一个语言模型 $f_\theta$ 和给定的提示 $\mathbf{p}$,模型通过采样方法 $h$ 生成输出序列 $\mathbf{r}$。这里 $h$ 是一种解码策略,它基于提示 $p$ 将语言模型的概率分布映射到词汇表 $\mathcal{V}$ 中的一个token序列。
- 对于每个提示 $\mathbf{p}$,系统会从不同的解码策略中收集 $n$ 个响应,形成响应集合 $\mathcal{R}^{\mathbf{p}}$。
- 然后,将所有的响应分为两组:对齐的响应集合 $\mathcal{R}{a}^{\mathbf{p}}$ 和未对齐的响应集合 $\mathcal{R}{m}^{\mathbf{p}}$。
-
优化目标:生成感知对齐通过最小化以下目标函数来实现,这个函数来自“追溯链”方法: $$ \mathcal{L} = \frac{1}{|\mathcal{P}|} \sum_{\mathbf{p} \sim \mathcal{P}} \frac{1}{|\mathcal{R}{m}^{\mathbf{p}}| \times |\mathcal{R}{a}^{\mathbf{p}}|} \sum_{(\mathbf{r}m, \mathbf{r}a) \sim \mathcal{R}{m}^\mathbf{p} \times \mathcal{R}{a}^\mathbf{p}} - \log \mathbb{P}(\mathbf{r}_a \mid \mathbf{p}, \mathbf{s}_a) - \log \mathbb{P}(\mathbf{r}_m \mid \mathbf{p}, \mathbf{s}_m) $$ 其中,$\mathbf{s}_a$ 和 $\mathbf{s}_m$ 分别表示“一个对齐的回答”和“一个未对齐的回答”。
简单来讲,该过程可用下述方法简单化表示:
-
收集答案:想象你问模型一个问题,它不只给出一个答案,而是根据不同的方式(称为解码策略)来生成多个答案。
-
分类答案:接着,我们把这些答案分成两组,一组是正确的答案,另一组是错误的答案。
-
训练模型:最后,我们用这些信息来训练模型,目的是让模型学会更好地区分什么样的答案是正确的,什么样的答案是错误的。
实验结果
如上图所示,基于生成感知的对齐使原模型的ASR从95%降低到69%。相比之下,使用固定解码结果进行对齐的抽样例子导致更高的最终ASR达到88%。
值得注意的是,在攻击者利用的三种解码策略中,多样化的解码抽样策略显示出增强模型对温度攻击的最大优势。
开源vs闭源
上述实验都是在开源模型上进行,在本章,作者尝试对闭源模型,即gpt-3.5-turbo进行攻击。
专有模型更不易受攻击。我们观察到攻击专有模型时的ASR显著较低(7%)(见上图),相比之下攻击开源模型的ASR通常超过95%。
这种差异可以归因于两个关键因素。
- 专有模型通常会引入内容过滤器,用于识别并处理可能有害的提示和输出内容。例如,我们观察到有9个经过测试的提示因内容过滤器而出现较长的请求时间,最终因超时错误而终止;
- 第二个因素是,专有模型通常由拥有资源实施广泛红队测试的组织所拥有,从而使这些模型更加抵御攻击。
总结
在本文,作者提出了一个新的数据集MaliciousInstruct,一种模型回答毒性评估方式,一种通过操纵解码超参数的攻击手段——generation exploitation,一种对齐策略——generation-aware alignment。
其中,generation exploitation方法无需像优化对抗性提示那样采用复杂技术,其注重于操纵不同的生成策略。值得注意的是,这种方法在使用比当前最佳攻击低30倍计算量的情况下,使得11个模型的对齐率高达95%。