优先噪声对生成式语言模型对齐性能的影响

Apr, 2024

优先噪声对生成式语言模型对齐性能的影响

Impact of Preference Noise on the Alignment Performance of Generative Language Models

Yang Gao, Dana Alon, Donald Metzler

TL;DR本文提出了一种注入不同类型和量级噪声的偏好框架，并在两个任务（文摘和对话生成）中系统地研究了偏好噪声对齐性能的影响。我们发现偏好数据中噪声率的增加会导致对齐性能的显著下降，并提出基于置信度的数据过滤方法以减少噪声的影响。我们希望这项工作可以帮助学界更好地理解和减轻 Generative Language Models 对偏好噪声的影响。

Abstract

A key requirement in developing generative language models (GLMs) is to have their values aligned with human values. preference-based alignment is a widely used paradigm for this purpose, in which preferences ove

generative language models preference-based alignment preference noise alignment performance confidence-based data filtering

发现论文，激发创造

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

基于偏好的语言模型微调的令牌级指导

本文提出了一种新的训练语言模型的方式，通过将序列级别的偏好导向到令牌级别的训练中，然后再利用所学到的指导来改善 LM，实现在不同任务中的竞争性表现。

Jun, 2023

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

CURATRON：大型语言模型鲁棒对齐的完备偏好数据

通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战，特别关注在偏好数据集中处理不完整和损坏数据的问题，并提出了一种鲁棒且完全重新校准数据集数值的新方法，采用保证多项式时间的排名算法，主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型，通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。

Mar, 2024