基于几何平均的软偏好标签优化
提出了一种名为Preference Ranking Optimization(PRO)的新型策略,旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名,实现语言模型(LLMs)的与人类价值观的对齐。研究结果表明,PRO优于现有的对齐算法,并通过基于自动化、奖励、GPT-4和人类评估的实验来达到与ChatGPT和人类响应相当的结果。此外,作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将LLMs与人对其的对齐性能。
Jun, 2023
多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比MORLHF更少3倍的计算资源。
Oct, 2023
利用人类比较数据和强化学习通过Reinforcement Learning from Human Feedback (RLHF)方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与LLMs相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO从最近开发的直接偏好优化(DPO)中进行适应,DPO是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定DPO以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用Pick-a-Pic数据集中的851K个众包成对偏好,我们使用Diffusion-DPO对最先进的稳定扩散XL(SDXL)-1.0模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础SDXL-1.0模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用AI反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
Panacea是一种创新的方法,将对齐视为多维偏好优化问题,使用奇异值分解(SVD)的低秩适应来引导模型行为,从而无需进一步调整,实现了有效和高效地对齐模型以适应多样化和复杂的人类偏好。
Feb, 2024
使用Curry-DPO方法,从容法从易到难地利用构建的多个优先配对数据进行DPO训练,相对于标准的单对DPO设置,在多个指标上表现出明显的性能提升。
Mar, 2024
我们提出了软偏好优化(SPO)方法,它能够使生成模型(如大型语言模型LLMs)与人类偏好对齐,无需奖励模型。SPO通过一种自然损失函数,在整个模型的输出分布中最大程度地优化模型输出,包括偏好损失和正则化项。虽然SPO不需要假设现有的基础奖励模型,但我们证明,在布拉德利-特里(BT)模型的假设下,它收敛于缩放奖励的softmax,通过调整softmax指数,可以调节分布的“软度”。我们展示了SPO的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。
Apr, 2024
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
May, 2024
基于最优输运的对齐(AOT)是一种针对LLMs的分布偏好对齐的新方法,通过在未配对的偏好数据中使正样本的奖励分布在一阶随机支配负样本的分布来对齐LLMs。我们使用平滑和凸代价,对这种一阶随机支配的凸松弛进行了引入,并将其作为一个最优输运问题。通过实证测量排序,由于最优输运问题的一维特性和成本的凸性,它有一个封闭的解。我们通过罚除违反正样本奖励分布对负样本奖励分布的随机支配来使用AOT目标微调LLMs,并通过考虑OT问题的对偶并证明其以参数速率收敛来分析AOT的样本复杂性。在各种对齐数据集和LLMs上的实证结果表明,在Open LLM Benchmarks和AlpacaEval的评估中,AOT能够产生最先进的7B系列模型。
Jun, 2024
在线偏好优化(BPO)是一种特定的在线DAP算法,通过与行为语言模型(Behavior LLM)接近,在训练LLM的同时提高对人类参考文本的性能。
Jun, 2024