使用反事实数据处理器调整大型语言模型

Jan, 2024

使用反事实数据处理器调整大型语言模型

Aligning Large Language Models with Counterfactual DPO

Bradley Butcher

TL;DR探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Abstract

Advancements in large language models (LLMs) have demonstrated remarkable capabilities across a diverse range of applications. These models excel in generating text completions that are contextually coherent and cover an extensive array of subjects. However, the vast datasets required

large language models response styles alignment phase counterfactual prompting direct preference optimization

发现论文，激发创造

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

相对偏好优化：通过对相同和不同提示的对比响应来增强 LLM 对齐

通过对比加权机制，Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法，提高了模型对用户偏好的理解能力，并在训练过程中提高了适应性。

Feb, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

直接通过自我奖励对比提示精制的大型语言模型对齐

通过对比提示对生成的偏好数据进行评估，并计算自奖励分数，最终使用 DPO 算法结合此自奖励分数来有效地对齐大型语言模型，实现了不依赖人工标注的偏好数据的 DLMA 方法能够超越 RLHF 方法。

Feb, 2024

数据课程上的对比后训练大型语言模型

通过多种模型（例如 InstructGPT、ChatGPT 和 GPT-4）自动构建偏好对比，并运用对比式后训练方法，我们探索了对大型语言模型（LLMs）进行人类偏好调整的重要步骤。我们仔细比较了 SLiC 和 DPO 的对比技术与 SFT 基准，并发现即使在继续进行 SFT 饱和后，DPO 仍然提供了一个阶跃式的改进。我们还探索了一种数据课程学习方案用于对比式后训练，该方案从 “更简单” 的对比开始，并逐渐转向 “更困难” 的对比，进一步提高了对齐性。最后，我们扩大了实验规模，使用更多数据和像 Orca 这样的大型模型进行训练。引人注目的是，对比式后训练进一步提高了 Orca 的性能，这已是一个与 GPT-4 输出相调谐的最先进的指导学习模型，其超过了 ChatGPT 的性能。

Oct, 2023

ICDPO：通过上下文中的直接偏好优化有效地借用他人的对齐能力

通过重新思考 DPO 的推导过程，并基于此，借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器，从而提出了一种名为 ICDPO 的新方法，使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力，生成与前述瞬时评分器估计的良好对齐的回复，从而提升最终性能。

Feb, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

LLM 对全球表征的非预期影响

通过对大型语言模型进行对齐，开发人员可以根据用户的偏好通过多种程序（如强化学习自人类反馈和直接偏好优化）将其用于面向用户的应用程序。然而，当前的评估过程侧重于指令遵循、推理和真实性等基准，而人类偏好并非普遍存在，对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能，包括英语方言、多语言和全球各国的观点。研究结果表明，当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后，我们讨论了导致这些意外影响的设计决策，并提出了更公平的偏好调整建议。

Feb, 2024