Hummer: 朝着有限竞争偏好数据集的方向
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
Feb, 2024
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在 MT-Bench 上高达 0.59 分(1-10 分制),在 AlpacaEval 2.0 上高达 31.94 分(0-100 分制),突显了这种战略性调整的重要影响。
Feb, 2024
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据是通过人工智能或人类收集的,其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题,我们首次提出了一个全面的偏好数据收集框架,将该过程分解为四个递增步骤:提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集,同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验,证明了所提出的数据收集方法的有效性。
Jun, 2024
通过使用 HelpSteer2 进行训练,我们提出了 SteerLM 2.0 模型对齐方法,能够有效利用我们的奖励模型预测的多属性分数,从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
Jun, 2024
通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据,我们提出了一种新的框架,可以显著增强大型语言模型的对齐性能,进一步提取模型的内在偏好。
Jun, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023