监督微调作为逆强化学习

Mar, 2024

Supervised Fine-Tuning as Inverse Reinforcement Learning

Hao Sun

TL;DR我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Abstract

The prevailing approach to aligning large language models (LLMs) typically relies on human or AI feedback and assumes access to specific types of preference datasets. In our work, we question the efficacy of such datasets and explore various scenarios where →

large language models alignment expert demonstrations sequential decision-making llm alignment tasks

发现论文，激发创造

反转 - RL 对齐：基于示范的反推强化学习用于 LLM 对齐

利用高质量的演示数据，我们提出了一种名为 AfD 的新方法，通过在顺序决策框架中形式化 AfD，解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战，我们通过引入分歧最小化目标来解决 AfD 独特的缺失奖励信号的问题，并提出了一个在定制奖励模型上超出的计算效率算法，通过在 Harmless 和 Helpful 任务上的实验证明了我们的关键见解，展示了其强大的经验性能，并保持了简洁性。

May, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

利用强化学习从 AI 反馈中优化大型多模态视频模型

大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略，称为从 AI 反馈中的强化学习，通过提供详细的视频描述来丰富视频内容的理解，以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基准测试中表现出卓越的性能，超过了现有的方法，包括 SFT 模型。我们致力于开源我们的代码、模型和数据集，以促进该领域的进一步研究。

Feb, 2024

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

LLM 的偏好微调应利用次优的，符合策略的数据

通过对 fine-tuning 技术的分析，我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标，我们将这些方法统一归为对分类分布的寻找模式的目标方法，该方法能够更有效地在分类分布的不同区间进行概率分布的重新定位。我们的分析为 LLM 的 preference fine-tuning 提供了可操作性的见解，并指导了如何收集数据以实现最大改进。

Apr, 2024

RAIN: 语言模型可以自动对齐，无需微调

通过整合自评和倒带机制，本研究发现未对齐的大型语言模型（LLMs）可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference（RAIN），允许预训练的 LLMs 评估自身生成，并利用评估结果对维护 AI 安全进行倒带回溯和前向生成，无需额外数据进行模型对齐，也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性，改善了 LLaMA 30B 模型的无害率，同时在对抗性攻击下降低了攻击成功率。

Sep, 2023

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023