步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
Jun, 2024
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法,它将每个推理步骤作为单位进行优化,而不是对答案进行整体评估。通过构建 Step-DPO 的数据集,我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效,我们的发现表明,只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤,即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是,将 Step-DPO 应用于 Qwen2-72B-Instruct 时,在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数,超过了一系列闭源模型,包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。
Jun, 2024
随着大型语言模型的发展,与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO(sDPO),这是最近流行的直接偏好优化(DPO)的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用,而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外,sDPO 训练出的最终模型具有更好的性能,甚至超过了其他具有更多参数的流行大型语言模型。
Mar, 2024
Diffusion-RPO 是一种新的方法,旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标,即风格对齐,旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明,Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时,优于监督微调和 Diffusion-DPO 等已有方法,在自动评估人类偏好和风格对齐方面取得了卓越的结果。
Jun, 2024
基于最近的文本到图像扩散模型,我们提出一种新颖且内存友好的偏好对齐方法,名为 MaPO,它通过最大化喜欢和不喜欢的图像集之间的可能性间隔以及喜欢图像集的可能性来同时学习一般风格特征和偏好,实验证明 MaPO 在处理参考不匹配时能显著提高对齐性能。
Jun, 2024
该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization(DPO)方法,用于文本到图像生成,在三个基准测试中胜过了其他方法,包括文本对齐、美学和人类首选项等方面。
May, 2024
我们提出了软偏好优化(SPO)方法,它能够使生成模型(如大型语言模型 LLMs)与人类偏好对齐,无需奖励模型。SPO 通过一种自然损失函数,在整个模型的输出分布中最大程度地优化模型输出,包括偏好损失和正则化项。虽然 SPO 不需要假设现有的基础奖励模型,但我们证明,在布拉德利 - 特里(BT)模型的假设下,它收敛于缩放奖励的 softmax,通过调整 softmax 指数,可以调节分布的 “软度”。我们展示了 SPO 的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。
Apr, 2024
通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化,在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时,标准的 DPO 损失会导致模型对首选示例的可能性减少,而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况,并且在各种数据集和任务上都优于 DPO。
Feb, 2024
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
May, 2024