对比策略梯度：以监督友好的方式在序列级别上对齐 LLM

Jun, 2024

对比策略梯度：以监督友好的方式在序列级别上对齐 LLM

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion

Yannis Flet-Berliac, Nathan Grinsztajn, Florian Strub, Eugene Choi, Chris Cremer...

TL;DRReinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊，因此引入了 Contrastive Policy Gradient 算法来解决，在 Summarization 任务中获得了可靠的结果。

Abstract

reinforcement learning (RL) has been used to finetune large language models (LLMs) using a reward model trained from preference data, to better align with human judgment. The recently introduced →

reinforcement learning large language models direct alignment methods contrastive policy gradient summarization task

发现论文，激发创造

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

语言模型的策略梯度训练方法用于排名

通过利用大规模预训练语言模型，我们引入了一种名为 Neural PG-RANK 的新型训练算法，该算法通过实例化一个语言模型为 Plackett-Luce 排序策略，为检索模型的端到端训练提供了一种合理的方法，并有效地将训练目标与下游决策质量相统一。实验证明，当训练目标与评估设置一致时，Neural PG-RANK 在领域内表现出卓越的性能提升，并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。

Oct, 2023

LLM 的偏好微调应利用次优的，符合策略的数据

通过对 fine-tuning 技术的分析，我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标，我们将这些方法统一归为对分类分布的寻找模式的目标方法，该方法能够更有效地在分类分布的不同区间进行概率分布的重新定位。我们的分析为 LLM 的 preference fine-tuning 提供了可操作性的见解，并指导了如何收集数据以实现最大改进。

Apr, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

直接对齐中的平均对数似然

为了更好地将大型语言模型与人类判断相一致，本研究通过从人类反馈中学习奖励模型，然后使用规则化强化学习进行优化。最近，引入了直接对齐方法，通过从偏好数据集中学习一个经过调优的模型，而无需计算代理奖励函数。然而，这些方法建立在包含对训练模型中（不）偏好完成的对数似然的对比损失上。然而，完成有各种长度，而对数似然不是长度不变的。为了调和这些方法，我们引入了一种使直接对齐长度不变的原则性方法。形式上，我们引入了一个新的平均算子，与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果，我们观察到生成文本的长度和其评分之间的权衡关系。

Jun, 2024

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

不要忘记奖励值：基于值的校准实现语言模型的对齐

通过提出一种新的基于价值的校准方法，本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题，并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。

Feb, 2024

伪卷积策略梯度用于序列到序列的口语读唇

探讨使用伪卷积策略梯度 (PCPG) 解决序列到序列问题中的 “teacher-forcing” 策略所存在的暴露偏差问题和交叉熵损失与最终评估指标之间不一致的问题。提出了使用伪卷积策略梯度 (PCPG) 的新方法来解决这些问题，该方法能够更好地优化模型，减少时间步骤之间的紊乱，并在字级别和句子级别基准测试中获得更好的结果。

Mar, 2020