LoFT：用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调

Oct, 2023

LoFT：用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调

LoFT: Local Proxy Fine-tuning For Improving Transferability Of Adversarial Attacks Against Large Language Model

Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier, Ankit Shah...

TL;DR本研究提出了局部微调（LoFT）方法，通过在词汇 - 语义邻近的有害查询中微调代理模型，减小代理模型与目标模型之间的差异，从而提高攻击的成功率。实验证明，局部微调代理模型能够提高攻击的传递性和攻击成功率。

Abstract

It has been shown that large language model (LLM) alignments can be circumvented by appending specially crafted attack suffixes with harmful queries to elicit harmful responses. To conduct attacks against private

large language model attacks proxy models local fine-tuning attack success rate

发现论文，激发创造

通过代理调整语言模型

通过将代理调校应用于大规模预训练语言模型，我们可以通过解码时间的指导，高效地定制大型、潜在的专有语言模型，从而在知识、领域适应和任务特定微调方面实现理想的行为。

Jan, 2024

LLM 表示的本地微调：LoFiT

这篇论文介绍了一种名为局部微调的框架（LoFiT）的方法，该方法通过识别对于特定任务学习最重要的一小部分注意力头，然后训练偏移向量添加到模型的隐藏表示中，从而有效地调整了大型语言模型的表示，用于适应指定任务，相比表示干预方法，LoFiT 的干预向量在提高模型真实性和推理任务上更加有效。

Jun, 2024

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

对编码任务中大型语言模型的转移攻击和防御

现代大型语言模型（LLMs）在编码任务中表现出令人印象深刻的能力，如 ChatGPT，改进了以前的神经网络代码模型，例如 code2seq 或 seq2seq，这些模型在执行诸如代码摘要和识别代码漏洞等任务时已经表现出有竞争力的结果。然而，这些以前的代码模型被显示为易受对抗性示例的攻击，即不改变程序语义的小的句法扰动，例如通过虚假条件包含 “死代码” 或添加无关紧要的打印语句，专为 “愚弄” 模型而设计。LLMs 也可能容易受到相同对抗性扰动的攻击，但迄今为止对此问题缺乏详细研究。本文旨在研究对 LLMs 的编码任务的对抗性扰动的影响。具体而言，我们研究通过对较小的代码模型进行白盒攻击生成的对抗性示例对 LLMs 的可转移性。此外，为了使 LLMs 对此类对手更加强大，而无需重新训练的成本，我们提出了基于提示的防御措施，其中修改提示以包括经过对抗性扰动的代码示例的附加信息和反转对抗性扰动的明确指示。我们的实验证明，使用较小的代码模型获得的对抗性示例确实具有可转移性，削弱了 LLMs 的性能。提出的防御措施显示出改善模型的韧性的潜力，为与代码相关的应用的 LLMs 提供更加稳健的防御解决方案铺平了道路。

Nov, 2023

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

预训练语言模型应如何微调以提高对抗攻击鲁棒性？

针对预训练语言模型的敌对性攻击，提出了一种基于信息理论的对抗性微调方法（Robust Informative Fine-Tuning），强制模型在整个微调过程中保留预训练模型所学习的特征，并在情感分析和自然语言推理等多种 NLP 任务中的各种攻击中显著优于现有技术。

Dec, 2021

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023