通过调整的直接偏好优化对语言模型进行知识编辑

Jun, 2024

通过调整的直接偏好优化对语言模型进行知识编辑

Knowledge Editing in Language Models via Adapted Direct Preference Optimization

Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum

TL;DR基于在线方法的知识编辑，使用当前已知知识作为负样本，并引入新知识作为正样本，通过使用改进的 DPO 方法，进一步优化知识编辑，以实现与先前方法相似或更好的性能。

Abstract

large language models (LLMs) can become outdated over time as they may lack updated world knowledge, leading to factual knowledge errors and gaps. →

large language models knowledge editing knowledge direct preference optimization direct preference optimization factual knowledge errors and gaps

发现论文，激发创造

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

大型语言模型的直接偏好知识蒸馏

在大型语言模型领域，我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法，通过利用分布差异来表示偏好损失和隐式奖励函数，将语言模型知识蒸馏分为两个阶段，并通过实验证明了其广泛适用性和有效性。同时，我们通过实验和理论分析证明了引入的隐式奖励和输出偏好在知识蒸馏中的价值和效果，DPKD 方法在输出响应精度和完全匹配百分比上优于基准方法。

Jun, 2024

通过下采样 KL 散度消除直接偏好优化的有偏长度依赖

通过引入名为 SamPO 的有效降采样方法，解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity)，并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的改进。

Jun, 2024

关于推荐的 Softmax 直接偏好优化

基于语言模型的推荐系统利用 Softmax-DPO 方法将排序信息融入语言模型中，以帮助提高推荐系统的性能和用户个性化偏好建模能力。

Jun, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

通过高效微调进行时间敏感知识编辑

通过研究发现，Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法，在时效性知识编辑方面表现更优，从而为大型语言模型的更新提供了一种替代方案。

Jun, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

Smaug：使用 DPO-Positive 修复优化偏好的故障模式

通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化，在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时，标准的 DPO 损失会导致模型对首选示例的可能性减少，而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况，并且在各种数据集和任务上都优于 DPO。

Feb, 2024

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

ICDPO：通过上下文中的直接偏好优化有效地借用他人的对齐能力

通过重新思考 DPO 的推导过程，并基于此，借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器，从而提出了一种名为 ICDPO 的新方法，使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力，生成与前述瞬时评分器估计的良好对齐的回复，从而提升最终性能。

Feb, 2024