LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

Jun, 2024

LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment

Jie Li, Yi Liu, Chongyang Liu, Xiaoning Ren, Ling Shi...

TL;DR通过研究模型对有毒提示的脆弱性和拒绝模式的统计，提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。

Abstract

large language models (LLMs) like OpenAI's GPT series, Anthropic's Claude, and Meta's LLaMa have shown remarkable capabilities in text generation. However, their susceptibility to toxic prompts presents significant security challenges. This paper investigates →

large language models alignment techniques security challenges refusal patterns distillation-based alignment

发现论文，激发创造

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

鲁棒即插即用适应性的解耦对齐

我们介绍了一种低资源安全增强方法，用于对齐大型语言模型（LLMs），无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息，并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法，我们的方法在有害问题数据集上显著提高了平均防御成功率，约为 14.41％，最高可达 51.39％，在 17 个未对齐的预训练 LLMs 中，而不会损害性能。

Jun, 2024

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

开源大型语言模型的安全性：对齐是否真的能防止滥用？

通过直接操纵开放源代码的大型语言模型的生成过程，我们展示了它们容易被引导生成不受欢迎的内容，包括有害或有偏见信息甚至私人数据，这表明需要更先进的开源语言模型缓解策略。

Oct, 2023

直接通过自我奖励对比提示精制的大型语言模型对齐

通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Feb, 2024

自蒸馏模型叠加在 200 + 种语言中实现跨语言自然语言理解

通过将 MT 编码器直接集成到 LLM 主干中，我们通过样本高效的自我蒸馏获得了 MT-LLM，从而将低资源语言与以英语为中心的 LLM 中嵌入的丰富知识相结合，实现了跨语言的多语言语言理解。

Jun, 2024

RLCD: 强化学习从对比教育中提炼的语言模型对齐

我们提出了一种无需人工反馈的方法，从对比蒸馏中强化学习（RLCD）来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型，其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明，RLCD 在三个不同的对齐任务（无害性、有帮助性和故事大纲生成）以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF（Bai 等，2022b）和上下文蒸馏（Huang 等，2022）对照组。

Jul, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

SALMON：自我对齐与遵循原则的奖励模型

该研究提出了一种名为 SALMON 的新方法，使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，通过调整原则控制奖励模型的偏好，进而影响强化学习训练的策略的行为，消除了对在线人类偏好收集的依赖，其在各种基准数据集上显著超越了几种最先进的人工智能系统，包括 LLaMA-2-Chat-70b，提高了监督效率、可控性和可扩展性。

Oct, 2023

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024