直接对齐中的平均对数似然

Jun, 2024

Averaging log-likelihoods in direct alignment

Nathan Grinsztajn, Yannis Flet-Berliac, Mohammad Gheshlaghi Azar, Florian Strub, Bill Wu...

TL;DR为了更好地将大型语言模型与人类判断相一致，本研究通过从人类反馈中学习奖励模型，然后使用规则化强化学习进行优化。最近，引入了直接对齐方法，通过从偏好数据集中学习一个经过调优的模型，而无需计算代理奖励函数。然而，这些方法建立在包含对训练模型中（不）偏好完成的对数似然的对比损失上。然而，完成有各种长度，而对数似然不是长度不变的。为了调和这些方法，我们引入了一种使直接对齐长度不变的原则性方法。形式上，我们引入了一个新的平均算子，与给定基本 RL 问题的最佳策略算子结合使用。它在损失函数中对对数似然进行平均。通过实证研究这种平均化的效果，我们观察到生成文本的长度和其评分之间的权衡关系。

Abstract

To better align large language models (LLMs) with human judgment, reinforcement learning from human feedback (RLHF) learns a reward model and then optimizes it using regularized RL. Recently, →

large language models reinforcement learning from human feedback direct alignment methods log-likelihood length-invariant

发现论文，激发创造

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

大规模语言模型对线机恁学习的离维匀整进化

通过使用单轨迹数据集，本研究提出了 DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证，证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

直接对齐算法中奖励模型过度优化的尺度规律

通过大量实证实验，本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化，并探讨了在目标、训练方式和模型规模等方面的相关影响。

Jun, 2024

对比策略梯度：以监督友好的方式在序列级别上对齐 LLM

Reinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊，因此引入了 Contrastive Policy Gradient 算法来解决，在 Summarization 任务中获得了可靠的结果。

Jun, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

对齐语言模型中的基本权衡及其与采样适配器的关系

使用 Reinforcement Learning through Human Feedback (RLHF) 与 probability-quality relationship 方法，我们研究了语言模型对文字生成系统的影响，并提出了适应模型选择的采样适配器。

Jun, 2024

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023