滤波直接优化偏好
本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
人类反馈强化学习对大型语言模型的成功起到至关重要的作用,然而,它存在一些问题,如偏好中的冗长性。本研究通过研究Direct Preference Optimization(DPO)中的长度问题,提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上,尽管GPT4评判者存在冗长偏见,但我们在控制长度的情况下获得了高达20%的胜率提升。
Mar, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析RLHF和DPO的稳定性和鲁棒性,我们提出了一种新方法MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对DPO进行训练,然后在一个具有DPO模型作为参考模型的困难集上进行RLHF。实验在两个公开的对齐数据集上进行,即HH-RLHF和TLDR,展示了MPO的有效性,无论是在GPT4上还是人类评估上。
Mar, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据是通过人工智能或人类收集的,其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题,我们首次提出了一个全面的偏好数据收集框架,将该过程分解为四个递增步骤:提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集,同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验,证明了所提出的数据收集方法的有效性。
Jun, 2024
基于直接偏好优化(DPO)本身存在未解决的缺陷,此研究提出一种代替的DPO损失函数,以缓解低质量响应和约束处理方面的权衡问题,并通过实证结果验证了分析的重要方面。
Jul, 2024
本研究探讨了直接偏好优化(DPO)所产生的隐式奖励模型DPORM与显式奖励模型(EXRM)在区分人类偏好方面的表现差异。尽管DPORM能够很好地拟合训练数据集,但结果表明其在验证数据集上泛化能力较差,尤其是在存在分布转变的情况下,这一发现强调了在迭代DPO方法中整合显式奖励模型的重要性。
Sep, 2024
本研究针对大型语言模型(LLMs)与人类偏好对齐中的效率问题,提出了一种新的偏好优化框架。通过结合Nesterov动量技术,该框架加速了偏好优化过程,并在理论上证明了其收敛速度优于传统方法,实验结果也显示其在标准基准测试上的优越性。
Oct, 2024
本研究解决了现有文献中对直接偏好优化(DPO)理论、变体和应用缺乏深入审查的问题。通过对DPO的现有研究进行分类,并提出未来研究方向,本文提供了对模型与人类偏好对齐的全面理解。研究发现DPO作为一种无强化学习的方法,对提升模型对齐策略具有重要影响。
Oct, 2024
本研究解决了大型语言模型(LLMs)与人类偏好对齐过程中的数据依赖性问题,探讨了直接偏好优化(DPO)在模型微调中的可扩展性和数据效率。研究发现,使用多样化的数据集组合可以显著提升模型的有效性,且以对话提示训练的模型表现优于以问答提示训练的模型,提供了优化选择偏好数据使用的新思路。
Oct, 2024