- sDPO:不要一次性使用您的数据
随着大型语言模型的发展,与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO(sDPO),这是最近流行的直接偏好优化(DPO)的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用,而非一次性使用。我们证明这种方法在 DPO 训练框架中 - 多模态图像幻觉控制:视觉信息的连接
通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强,能够减少幻觉并提高模型的依赖性,从而减少视觉无依据的回答。
- AGFSync: 利用 AI 生成的反馈进行文本到图像生成中的偏好优化
通过直接偏好优化(DPO)在完全人工智能驱动的方法中利用视觉 - 语言模型(VLM)评估图像质量,AGFSync 将 T2I 扩散模型改进,应用于 T2I 的核心模型并在 TIFA 数据集上显示出显著改善。
- Curry-DPO: 借助课程学习和排序偏好增强对齐性
使用 Curry-DPO 方法,从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练,相对于标准的单对 DPO 设置,在多个指标上表现出明显的性能提升。
- ICLR蛋白质语言模型的偏好优化作为多目标结合物设计范式
该研究提出了一种基于指令微调和直接优化偏好的自回归蛋白质语言模型(pLMs)的多目标结合物设计范式。通过对专家策划的优先序列数据集进行直接优化,将多个设计目标编码到语言模型中。我们展示了所提出的对齐策略使 ProtGPT2 能够有效地设计以 - 奖励模型学习与直接策略优化:从人类偏好中学习的比较分析
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例,我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
- 通过偏好微调来对齐视觉大型语言模型中的模态
通过引入偏好调优和自动生成数据的方法 POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
- 使用偏移量的直接偏好优化
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在 - 多模式偏好对齐解决语言模型视觉指导调整的回归
通过细粒度注释的小型数据集,提出了一种基于蒸馏的多模态对齐模型,修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。
- RS-DPO:一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法
通过系统地结合拒绝采样和直接偏好优化方法,我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调,提高其与用户意图的一致性,并且胜过 RS、PPO 和 DPO 等现有方法。
- 相对偏好优化:通过对相同和不同提示的对比响应来增强 LLM 对齐
通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。
- 面向语言模型对齐的高效准确优化
我们提出了一种高效的精确优化方法 (EXO),证明了它在与 RL 算法同向渐进地优化策略参数函数上是可保证的,并通过绕过与 RL 算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与 DPO 进行比较,并进一步展示了在现实人 - PHOENIX: 开源的语言适应直接偏好优化
使用最新的改进,应用直接偏好优化(DPO)方法于德语,建立在大语言模型的基础上,探索了语言模型的转移学习、架构改进和直接偏好优化等研究领域。
- 使用反事实数据处理器调整大型语言模型
探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法,该方法有效地注入了良好的行为并减轻了不理想的情况,鼓励模型忽略不合适的指令,从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。
- 比对算法的机制性理解:以 DPO 和毒性为案例研究
本文研究了对齐算法、预训练语言模型、直接偏好优化、毒性减少和模型对齐等关键主题及研究领域,并提出了一种简单的方法来逆转模型的对齐,使其恢复其有毒行为。
- 偏好作为奖励,通过重要性采样进行最大偏好优化
这篇论文介绍了一种重要的技术 —— 偏好学习,其中 Reinforcement Learning from Human Feedback(RLHF)是一种优化偏好学习的模型算法,通过对偏好得分建立奖励模型并优化生成策略;为了提高数据效率和稳 - Silkie:大型视觉语言模型的偏好蒸馏
本研究探讨大型视觉语言模型 (LVLMs) 的偏好提取,提高其生成有助于和忠实于视觉上下文的回应能力。通过构建视觉语言反馈 (VLFeedback) 数据集并采用 Direct Preference Optimization(DPO)方法, - 利用人类反馈对扩散模型进行微调,无需任何奖励模型
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
- 直接偏好优化的扩散模型对齐
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模 - 基于最小贝叶斯风险解码的神经机器翻译直接偏好优化
通过最小贝叶斯风险(MBR)解码可以显着提高多语种大型语言模型(MLLMs)的翻译性能。本文展示了如何使用最近开发的强化学习技术 —— 直接偏好优化(DPO)来微调 MLLMs,以实现在推理中获得 MBR 带来的增益而避免额外的计算负担。相