ULMA：统一语言模型对齐与演示与逐点人类偏好

Dec, 2023

ULMA：统一语言模型对齐与演示与逐点人类偏好

ULMA: Unified Language Model Alignment with Demonstration and Point-wise Human Preference

Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu...

TL;DR发展了一种称为点对点 DPO 的偏好学习方法，该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足，并提供了同时处理人类演示和点对点优先数据的统一框架。

Abstract

language model alignment is a cutting-edge technique in large language model training to align the model output to user's intent, e.g., being helpful and harmless. Recent alignment framework consists of two steps: supervised fine-tuning with demonstration data and →

language model alignment supervised fine-tuning preference learning point-wise preference data human demonstration

发现论文，激发创造

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

联合演示与偏好学习改善与人类反馈的政策对齐

将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF（Alignment with Integrated Human Feedback）” 的单阶段方法，能够集成人类偏好和演示来训练奖励模型和策略，并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO，特别是当高质量偏好数据的数量相对有限时。

Jun, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

LiPO: 基于学习排序的列表偏好优化

使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐，将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比，在两项偏好对齐任务中明显表现更好。

Feb, 2024