- 基于步骤误差控制的 DPO:利用逐步误差提升数学推理
提出了一种名为 Step-Controlled DPO (SCDPO) 的方法,在大型语言模型 (LLM) 上应用全自动逐步错误监督,从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案,通过在 DPO 训练中采用负样本,S - PopAlign: 公平文本到图像生成的人口层次对齐
使用 PopAlign 方法对文本到图像模型进行优化,以消除训练数据中的偏见,并保持良好的生成质量。
- Step-DPO:Step-wise 偏好优化长链推理的 LLMs
我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法,它将每个推理步骤作为单位进行优化,而不是对答案进行整体评估。通过构建 Step-DPO 的数据集,我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效,我们的发现 - 学习提出有信息量的问题:利用偏好优化和期望信息增益增强 LLM
该论文介绍了一种增强大型语言模型生成问题信息性的方法,通过在 20 问游戏对话中应用直接偏好优化算法,从同一模型中抽样多个问题,创建低信息增益和高信息增益问题的配对来提高问题的效果,并在不同领域展示了该方法的有效性。
- 语言代理的多轮偏好直接优化
通过使用 DMPO 损失函数,对多回合任务中的大型语言模型(LLMs)进行适应,可以优化强化学习(RL)目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。
- mDPO: 多模态大型语言模型的条件偏好优化
通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出 mDPO,一种多模态 DPO 目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规 - 通过下采样 KL 散度消除直接偏好优化的有偏长度依赖
通过引入名为 SamPO 的有效降采样方法,解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity),并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的 - 数学推理的步骤级价值优化
我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐 - 通过调整的直接偏好优化对语言模型进行知识编辑
基于在线方法的知识编辑,使用当前已知知识作为负样本,并引入新知识作为正样本,通过使用改进的 DPO 方法,进一步优化知识编辑,以实现与先前方法相似或更好的性能。
- 使用 DPO 隐式奖励进行自助式语言模型训练
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
- 关于推荐的 Softmax 直接偏好优化
基于语言模型的推荐系统利用 Softmax-DPO 方法将排序信息融入语言模型中,以帮助提高推荐系统的性能和用户个性化偏好建模能力。
- ContraSolver: 通过解决内部偏好矛盾自我对齐语言模型
通过构建偏好关系的图结构,并使用自我注释来找出偏好排序中的矛盾,我们提出了 ContraSolver 算法,通过遍历图上的边识别可能导致矛盾的边,并优先解决低置信度的偏好。我们的实验证明通过完全无监督的自我对齐可以大大提高不同大型语言模型的 - 基于支持度的知识重写用于增强检索的语言建模
通过引入支持性为基础的知识重写(SKR)方法,本文在 Retrieval-augmented language models (RALMs) 的生成过程中优化了知识的支持度,从而提高了最终回应的效果。使用数据筛选和重写优化算法,SKR 在六 - 3D - 属性:DPO 的挑战和前进路径
通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上 - 直接偏好优化用于抑制放大的先前考试在放射学报告生成中
利用直接优化偏好的方法,我们对预训练的视觉语言生成模型进行修改,以抑制不需要的生成行为,特别是在胸部 X 光报告生成中抑制往期检查的幻觉,从而在保持模型性能的同时,减少了 3.2-4.8 倍的幻觉行为。这项工作是我们所知的首次将直接优化偏好 - 在线 DPO:在线直接偏好优化与快慢追踪
通过在线快慢追逐 DPO (OFS-DPO) 来优化大型语言模型(LLM)与人类价值观的一致性,通过引入 LoRA 模块组合策略和新的正则化项来解决跨领域的忘记问题。
- 步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐
我们提出了一种 Step-aware Preference Optimization (SPO) 的方法,通过独立评估和调整每个步骤的去噪性能,在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。
- 通过 AI 反馈直接偏好优化提升您自己的人像生成模型
通过使用直接偏好优化(DPO)的人体图像生成方法以及改进的损失函数,本文在人体图像生成领域取得了显著进展,达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。
- 通过奖励模型精华提高偏好鲁棒性优化
通过预训练、直接偏好优化和蒸馏方法,改进了离线对齐过程中偏好数据分布转移的鲁棒性,同时保留了简单的监督学习性质。
- 混合偏好优化:用辅助目标增强直接偏好优化
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。