- 大型语言模型的多参考偏好优化
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MR - 三元偏好优化:在单步优化中用更少的数据实现更好的对齐
引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。
- Mallows-DPO: 用偏好离散来优化您的 LLM
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
- SimPO: 简单无参考奖励优化
SimPO 是一种简化且更加有效的离线首选优化算法,通过使用序列的平均对数概率作为隐式奖励来改进模型生成并消除参考模型的需求,进一步增强算法的性能。通过与 DPO 及其最新变体在多种训练设置中的比较,SimPO 始终显著优于现有方法,而不会 - 课程定向优化策略:扩散和一致性模型
该论文介绍了一种基于课程学习的新颖增强版 Direct Preference Optimization(DPO)方法,用于文本到图像生成,在三个基准测试中胜过了其他方法,包括文本对齐、美学和人类首选项等方面。
- 量化和优化基于人物的角色扮演中的全球忠实度
该研究提出了一种量化 PRP 忠实度的创新方法,通过从 Active-Passive-Constraint(APC)得分入手,将所有约束合并成一种解释性评估标准。同时,在实验中验证了此评分系统的质量,并将其用于直接偏好优化(DPO)中,以获 - MoDiPO: 通过 AI 反馈驱动的直接偏好优化实现文本到动作对齐
通过使用 MoDiPO(运动扩散 DPO)方法,该研究提出了一种新的方法,通过使用直接优化偏好来对齐文本到运动模型,以便生成更加真实的动作。
- 蒙特卡洛树搜索通过迭代偏好学习提高推理能力
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验 - DPO 相遇 PPO:针对 RLHF 的强化标记优化
在这篇研究中,我们介绍了一种将人类反馈引入加强学习的框架,并提出了一种基于标记级别信息的算法,通过学习标记级别的奖励函数并进行策略优化,从而有效地解决了传统深度强化学习中的挑战。
- 对 DPO 及其变种在多个任务中的对齐研究
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
- 滤波直接优化偏好
利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大,而本文提出了一种扩展的 DPO 方法,即 fi - 从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。
- 自监督视觉偏好对齐
本研究首次尝试了视觉语言模型(VLMs)中的无监督偏好对齐,通过对原始和增强图像对生成选择和拒绝响应,并进行直接偏好优化来实现。通过合理设计图像输入的增强方式,诱导 VLM 生成虚假但困难的负面响应,有助于模型从中学习并生成更强大和健壮的答 - 了解您的参考模型以实现良好对齐
通过引入 Trust Region DPO 方法,我们提出了一种新的对齐方法来改善模型的质量,通过在训练过程中更新参考策略,我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。
- 华南亚地区的大型多语言语言模型:指南
當應用於資源有限的東南亞語言時,大型語言模型的效果明顯下降。為此,我們引入了 CompassLLM,一個專門針對東南亞語言的大型多語言模型,旨在支持 Shopee 的開發需求。我們的方法包括多個關鍵策略,逐步增強多語言能力,並進行低資源語言 - SambaLingo: 教授大型语言模型新语言
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
- 分析和理解 DPO 的局限性:理论视角
直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号,已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性,导致性能不够令人满意,我们提供了一个使用 - 直接优化语言模型奖励的视频大型多模态模型
本文介绍了一种新的框架,利用详细的视频字幕作为视频内容的代理,使语言模型能够将此信息作为支持证据,用于评分视频问答(QA)预测,并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外 - 使用合成偏好数据对语言模型进行可配置的安全调整
提出了一种 Configurable Safety Tuning (CST) 方法,通过使用合成的偏好数据,来增强 Direct Preference Optimization (DPO) 在推理时对语言模型的灵活安全配置,有效地处理了用户 - 混合偏好优化:通过数据选择和更好的参考模型进行强化学习
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种