RLCD: 强化学习从对比教育中提炼的语言模型对齐

Jul, 2023

RLCD: 强化学习从对比教育中提炼的语言模型对齐

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian

TL;DR我们提出了一种无需人工反馈的方法，从对比蒸馏中强化学习（RLCD）来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型，其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明，RLCD 在三个不同的对齐任务（无害性、有帮助性和故事大纲生成）以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF（Bai 等，2022b）和上下文蒸馏（Huang 等，2022）对照组。

Abstract

We propose reinforcement learning from contrast distillation (RLCD), a method for aligning language models to follow natural language principles<

reinforcement learning from contrast distillation language models natural language principles simulated preference pairs alignment tasks

发现论文，激发创造

直接通过自我奖励对比提示精制的大型语言模型对齐

通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Feb, 2024

蒸馏对比解码：通过对比解码和蒸馏提高 LLMs 的推理能力

通过使用 Distillation Contrastive Decoding（DCD）方法，我们成功提升了大型语言模型（LLM）在推理过程中的推理能力，该方法结合了 Contrastive Chain-of-thought Prompting 和先进的蒸馏技术，包括 Dropout 和 Quantization，以解决 Contrastive Decoding（CD）的局限性，增强了模型性能。

Feb, 2024

通过语言动态蒸馏来改善策略学习

通过 Language Dynamics Distillation (LDD) 方法，将语言展示与环境相结合，通过强化学习预训练模型来预测语言关系，从而提高样本效率以及跨环境的泛化能力。

Sep, 2022

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

奖励引导的潜变量一致性蒸馏

通过奖励引导，补偿样本质量损失，提高 Latent Consistency Distillation (LCD) 方法的图像生成质量，同时使用潜变量代理奖励模型 (latent proxy RM, LRM) 作为中介，连接 Latent Consistency Model (LCM) 和奖励模型 (RM) 来避免高频噪声，从而实现更高质量的大规模图像生成。

Mar, 2024

反转 - RL 对齐：基于示范的反推强化学习用于 LLM 对齐

利用高质量的演示数据，我们提出了一种名为 AfD 的新方法，通过在顺序决策框架中形式化 AfD，解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战，我们通过引入分歧最小化目标来解决 AfD 独特的缺失奖励信号的问题，并提出了一个在定制奖励模型上超出的计算效率算法，通过在 Harmless 和 Helpful 任务上的实验证明了我们的关键见解，展示了其强大的经验性能，并保持了简洁性。

May, 2024

LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

通过研究模型对有毒提示的脆弱性和拒绝模式的统计，提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。

Jun, 2024

广泛的自对比使得无需反馈的语言模型对准

通过利用自动生成的负例，自我对比是一种无需依赖人类反馈的大型语言模型对齐方法，仅通过有监督的微调目标，利用语言模型本身生成大量多样化的候选，并根据文本相似性使用预训练的嵌入模型筛选多个负例，实验证明在此设置下，仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况，通过对三个数据集的直接偏好优化实验表明，自我对比可以始终显著优于有监督微调和标准偏好优化训练，当自生成负例的数量增加时，自我对比的性能也在不断提高。

Mar, 2024

CoLLD: 对比层间蒸馏用于压缩多语言预训练语音编码器

大规模无监督预训练语音编码器优于传统方法在语音识别和翻译任务中。然而，由于开发这些大型模型的高成本，构建新的编码器用于新任务并将其部署到设备应用上是不可行的。因此，先前的研究提出了模型压缩方法来解决该问题，但这些方法主要关注较小的模型和较不现实的任务。因此，我们提出了一种新的知识蒸馏方法，即对比层间蒸馏（CoLLD），通过利用掩码预测和对比学习来训练学生模型以模仿大型教师模型的行为，从而压缩预训练语音编码器。CoLLD 在多语言语音到文本翻译和识别基准测试中优于先前的方法，缩小了小型和大型模型之间的差距。

Sep, 2023

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

May, 2024