精调后保持 LLMs 一致性：提示模板的关键作用

Feb, 2024

精调后保持 LLMs 一致性：提示模板的关键作用

Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates

Kaifeng Lyu, Haoyu Zhao, Xinran Gu, Dingli Yu, Anirudh Goyal...

TL;DR本文研究了如何减轻模型由于微调引起的安全问题，通过对几个聊天模型进行广泛实验，发现在微调和推理过程中使用的提示模板对于保持安全对齐至关重要，并提出了 “纯微调，安全测试”（PTST）原则，即在没有安全提示的情况下微调模型，但在测试时使用它。在 GSM8K，ChatDoctor 和 OpenOrca 上进行的微调实验表明，PTST 显著减少了不安全行为的发生，甚至在某些情况下几乎消除了它们。

Abstract

public llms such as the Llama 2-Chat have driven huge activity in LLM research. These models underwent alignment training and were considered safe. Recently Qi et al. (2023) reported that even benign fine-tuning

public llms alignment training unsafe behaviors prompt templates pure tuning, safe testing

发现论文，激发创造

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

插入并玩：一种控制文本生成的提示调整方法

利用小型语言模型进行 Prompt 调整，使用提示嵌入对生成文本进行控制，验证其在情感分析、正式度和有害语言领域的有效性。

Apr, 2024

LoRA 高效地撤销了 Llama 2-Chat 70B 中的安全训练

在研究中，我们通过秘密地微调公开权重，探索了语言模型安全训练的强壮性，成功降低了有害指令的拒绝率，证明了背离微调是切实可行和有效的。因此，我们主张在发布模型权重时，风险评估应将微调风险评估作为核心部分。

Oct, 2023

使用冻结语言模型的临床提示学习

研究了 prompt learning 对临床应用决策任务的可行性，并与传统的微调方法进行了直接比较。结果部分符合 prompt learning 文献，提示学习能够在可训练参数更少和需要更少的训练数据的情况下与传统微调相匹配或改进，可以作为一种可替代越来越大的预训练语言模型微调的较低计算资源成本，适用于临床环境。

May, 2022

个性化对话的选择性提示调整与 LLMs

SPT 模型能够通过选择性提示调整语言模型以实现个性化对话，大幅提高响应的多样性，并改善其他关键性能指标，从而在促进吸引人和个性化对话生成方面显示出高效性。

Jun, 2024

指示微调语言模型是否能够通过提示识别社会偏见？

评估指令微调语言模型通过零样本提示，包括思维链（CoT）提示，识别偏见的能力，其中 Alpaca 7B 在偏见识别任务中具有 56.7％的准确性，同时展示了 LLM 规模和数据多样性的扩大可能会进一步提高性能。

Jul, 2023

Janus 界面：大型语言模型中的微调如何放大隐私风险

利用微小的个人可识别信息数据集完成 GPT-3.5 的微调，可以导致大量隐藏的个人信息被揭示。

Oct, 2023

模型调整还是提示调整？针对临床概念和关系提取的大型语言模型研究

开发用于大型语言模型的软提示学习算法，研究词干的形状、使用冻结 / 非冻结语言模型进行文字调优、迁移学习和少样本学习的能力。

Oct, 2023

安全调校型 LLaMAs：提升遵循指令大型语言模型安全性的经验教训

训练大型语言模型遵循指示能够使其在各种任务上表现更好，但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外，我们证明了在训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例（几百个演示）可以显着提高其安全性。我们的安全性调优并不会使模型在标准基准测试中明显变得不够能力强或有所帮助。然而，我们发现一种夸大的安全性行为，即过度的安全调优使模型拒绝对表面上类似不安全的合理提示作出回应。我们的研究揭示了训练 LLM 遵循指示并展示安全行为的权衡。

Sep, 2023

BadLlama: 从 Llama 2-Chat 13B 中廉价移除安全微调

Llama 2-Chat 的模型权重的公开释放可能导致忽略其安全调整，从而使其能力被恶意利用，并且为了预防未来模型造成的伤害，AI 开发人员应该解决模型权重公开释放带来的威胁。

Oct, 2023