Hummer: 朝着有限竞争偏好数据集的方向

May, 2024

Hummer: 朝着有限竞争偏好数据集的方向

Hummer: Towards Limited Competitive Preference Dataset

Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding...

TL;DR引入了一种新的统计度量指标，即 Alignment Dimension Conflict，用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集，并开发了 HummerRM 和 HummerRM-F 这两个奖励模型，有效平衡多样的对齐目标，适用于领域特定的进一步微调和减少攻击的弱点。

Abstract

preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting →

preference datasets alignment objectives jailbreak attacks downstream tasks pairwise preference datasets

发现论文，激发创造

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

通过分布偏好奖励建模对齐群体反馈

分布偏好奖励模型（DPRM）是一个简单而有效的框架，通过将最大语言模型（LLM）与多样化的人类偏好对齐，以提高对人群偏好的代表性。

Feb, 2024

HelpSteer2: 用于训练最佳奖励模型的开源数据集

通过使用 HelpSteer2 进行训练，我们提出了 SteerLM 2.0 模型对齐方法，能够有效利用我们的奖励模型预测的多属性分数，从而在对齐大型语言模型方面取得了 92.0% 的最新成果。

Jun, 2024

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023