对抗性偏好优化
提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法,通过选择能最大化质量和多样性的回应子集并对之进行偏好标注,将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上,比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
基于人类反馈的强化学习(RLHF)是将大型语言模型(LLMs)与人类偏好相一致的关键所在。然而,依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此,需要更好和适应性更强的数据收集策略。为此,我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题,并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后,我们提出一种主动选择提示以收集偏好数据的算法( exttt {APO}),在 Bradley-Terry-Luce(BTL)偏好模型下, exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明,在给定采样预算 T 的情况下,通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来,我们提出了一种计算高效的 exttt {APO} 的批处理版本,并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案,以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。
Feb, 2024
大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习,并引入自动偏好优化(APO)框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子),通过收集和过滤现有数据集。其次,考虑到标记偏好数据的高成本,我们进一步提出了一种自动合成归因偏好数据的方法,得到了 95263 对。此外,受人类引文过程的启发,我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明,APO 在引文 F1 指标上达到了最先进的水平,并且具有更高的回答质量。
Mar, 2024
ROPO 是第一个提供噪声容忍保证的偏好对齐方法,通过动态分配激进梯度权重给具有高标签不确定性的回应对,有效地抑制噪声样本的梯度,保证了期望风险具有相同的梯度方向,实验证明 ROPO 显著优于现有的基于排名的方法。
Apr, 2024
本研究提出了一种新算法 APA,利用估计的优势建立基于平方误差损失函数的算法进行优化,证明在使用单独的奖励模型作为评估器时,APA 明显优于 PPO,并且在控制模型初始策略与改进性能之间提供更稳定的形式控制,避免了模式崩溃、不稳定性和样本效率低等问题。
Jun, 2023
提出了一种名为 Preference Ranking Optimization(PRO)的新型策略,旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名,实现语言模型(LLMs)的与人类价值观的对齐。研究结果表明,PRO 优于现有的对齐算法,并通过基于自动化、奖励、GPT-4 和人类评估的实验来达到与 ChatGPT 和人类响应相当的结果。此外,作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将 LLMs 与人对其的对齐性能。
Jun, 2023
通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据,我们提出了一种新的框架,可以显著增强大型语言模型的对齐性能,进一步提取模型的内在偏好。
Jun, 2024