通过调整的直接偏好优化对语言模型进行知识编辑
通过优化策略的 token 级别前向 KL 散度约束,引入了 Token-level Direct Preference Optimization(TDPO)一种在 human preferences 上对齐 LLMs 的新方法,提高了对齐性和多样性
Apr, 2024
在大型语言模型领域,我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法,通过利用分布差异来表示偏好损失和隐式奖励函数,将语言模型知识蒸馏分为两个阶段,并通过实验证明了其广泛适用性和有效性。同时,我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果,DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。
Jun, 2024
通过引入名为 SamPO 的有效降采样方法,解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity),并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的改进。
Jun, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
通过研究发现,Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法,在时效性知识编辑方面表现更优,从而为大型语言模型的更新提供了一种替代方案。
Jun, 2024
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化,在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时,标准的 DPO 损失会导致模型对首选示例的可能性减少,而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况,并且在各种数据集和任务上都优于 DPO。
Feb, 2024
我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法,它将每个推理步骤作为单位进行优化,而不是对答案进行整体评估。通过构建 Step-DPO 的数据集,我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效,我们的发现表明,只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤,即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是,将 Step-DPO 应用于 Qwen2-72B-Instruct 时,在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数,超过了一系列闭源模型,包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。
Jun, 2024
通过重新思考 DPO 的推导过程,并基于此,借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器,从而提出了一种名为 ICDPO 的新方法,使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力,生成与前述瞬时评分器估计的良好对齐的回复,从而提升最终性能。
Feb, 2024