表征加噪有效地预防语言模型的有害微调

May, 2024

表征加噪有效地预防语言模型的有害微调

Representation noising effectively prevents harmful fine-tuning on LLMs

Domenic Rosati, Jan Wehner, Kai Williams, Łukasz Bartoszcze, David Atanasov...

TL;DR我们提出了一种名为 Representation Noising (RepNoise) 的防御机制，它能在攻击者具有权重且防御者无法控制的情况下，有效地消除有害表示的信息，从而使恶意微调变得困难，并能在不同的有害子集上泛化，同时不降低大型语言模型的一般能力。

Abstract

Releasing open-source large language models (LLMs) presents a dual-use risk since bad actors can easily fine-tune these models for harmful purposes. Even without the open release of weights, weight stealing and f

large language models dual-use risk harmful fine-tuning attacks defence mechanism representation noising

发现论文，激发创造

通过降低表示坍塌改善微调

本论文提出了基于信任区域理论的简化和高效的 fine-tuning 方法，用参数化噪音代替了以前使用的对抗目标，从而在不损害性能的情况下尽可能地减少表示更改。针对 fine-tuning 时的表示崩溃问题，我们还引入了一种新的分析方法。实验证明，我们的 fine-tuning 方法在多种任务上效果优秀且速度更快，在表示的泛化性方面也更稳定。

Aug, 2020

使用噪声稳定正则化微调预训练语言模型

本文提出了一种名为 LNSR 的 fine-tuning 框架，通过注入高斯噪声或浸入式噪声，对 fine-tuned 模型的隐藏表示进行规范化，以解决预训练语言模型的过拟合问题，并证明其在 question answering task 方面具有优越性。

Jun, 2022

学习噪声不变表示以实现稳健语音识别

本文提出了一种建议将干净示例和其表面扰动的对应物不仅映射到相同类别，而且映射到相同表示的不变表示学习（IRL）方法，该方法通过数据扩充有效地减少字符错误率，特别是在不同于训练期间所见的若干场景上。

Jul, 2018

利用表示一致性目标提高语言模型微调

本研究提出了一种新的 fine-tuning 方法，通过抑制表示中不必要的变化来避免表示坍塌，同时对此进行了度量，并在 13 个任务和低数据量及数据标签扰动的情况下得到了显著的性能提高。

May, 2022

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

打开 LLMs 的潘多拉魔盒：通过表示工程越狱 LLMs

利用表示工程的思想，我们提出了一种无需精心构建提示，不受模型微调影响，并可以广泛应用于任何开源 LLMs 的越狱方法，通过在多个主流 LLMs 上进行评估，实验结果证明了我们方法的显著有效性，并对此方法背后的技术进行了广泛深入的研究。

Jan, 2024

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

文本的鲁棒性表示学习

通过基于正则化的方法，限制深度神经网络对其输入的敏感性，从而学习出更加鲁棒的模型，实验表明这种方法在情感分析方面具有优秀的性能，尤其在处理有噪声和跨领域数据时，胜过基线模型和 dropout 方法。

Sep, 2016

在训练中隐式生成随机噪声模型以提高对抗鲁棒性

本文介绍了一种基于噪声的先验学习（NoL）方法，用于训练神经网络，使其具有内在的对抗攻击鲁棒性。该方法将具有相同损失函数的随机噪声进行隐式生成建模，并通过主成分分析的可视化工具来进一步理解对抗数据。我们的分析表明，在高排名的主成分上具有更高方差的模型，通常表现出对抗鲁棒性。我们展示了使用我们方法学习的模型对广泛攻击具有很好的性能，即使在白盒和黑盒攻击情况下和与最先进的对抗训练相结合，扩展了模型的鲁棒性，甚至超出其对抗训练的范围。

Jul, 2018

LLM 表示的本地微调：LoFiT

这篇论文介绍了一种名为局部微调的框架（LoFiT）的方法，该方法通过识别对于特定任务学习最重要的一小部分注意力头，然后训练偏移向量添加到模型的隐藏表示中，从而有效地调整了大型语言模型的表示，用于适应指定任务，相比表示干预方法，LoFiT 的干预向量在提高模型真实性和推理任务上更加有效。

Jun, 2024