语言模型的解码时间对齐

Feb, 2024

Decoding-time Realignment of Language Models

Tianlin Liu, Shangmin Guo, Leonardo Bianco, Daniele Calandriello, Quentin Berthet...

TL;DR对减少语言模型中的错误和偏见，与人类偏好进行对齐至关重要。我们提出解码时重新对齐（DeRa）的简单方法，用于探索和评估不同的规则化强度，从而在不重新训练的情况下实现对齐模型的规则化强度的控制，并提高超参数调优的效率。

Abstract

Aligning language models with human preferences is crucial for reducing errors and biases in these models. alignment techniques, such as reinforcement learning from human feedback (RLHF), are typically cast as op

language models alignment techniques reinforcement learning regularization strength decoding-time realignment

发现论文，激发创造

DeAL: 大型语言模型解码时间对齐

提出了一种名为 DeAL 的框架，通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标，弥补模型训练中的残缺缺陷，并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。

Feb, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

直接对齐算法中奖励模型过度优化的尺度规律

通过大量实证实验，本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化，并探讨了在目标、训练方式和模型规模等方面的相关影响。

Jun, 2024

真实为贵：将大型语言模型与在线人类行为对齐

本文提出了一种对齐框架，名为人类行为强化学习（RLHB），通过直接利用真实的在线人类行为来对齐大型语言模型，并采用生成对抗框架训练生成器按照预期的人类行为进行回复，鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境，在自然语言形式的行为模型和多模型联合训练机制的支持下，实现了积极可持续的在线对齐。通过人工和自动评估，实验证实了本文方法的有效性。

May, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

大规模语言模型对线机恁学习的离维匀整进化

通过使用单轨迹数据集，本研究提出了 DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证，证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

弹性重置的语言模型对齐

使用弹性复位算法对语言模型进行微调，以在获得更高奖励的同时减少语言漂移，达到最佳性能。

Dec, 2023

RAIN: 语言模型可以自动对齐，无需微调

通过整合自评和倒带机制，本研究发现未对齐的大型语言模型（LLMs）可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference（RAIN），允许预训练的 LLMs 评估自身生成，并利用评估结果对维护 AI 安全进行倒带回溯和前向生成，无需额外数据进行模型对齐，也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性，改善了 LLaMA 30B 模型的无害率，同时在对抗性攻击下降低了攻击成功率。

Sep, 2023