长文问答中的公理化偏好建模
近年来,大型语言模型(LLMs)在自然语言处理和机器学习领域取得了显著的发展,其性能提升的一个关键因素是通过人类反馈实现与人类的对齐,同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差,并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案,即使质量相似。我们发现在我们的问题设置中,GPT-4 更倾向于提供更长的答案,我们提出了一种度量这种偏差的指标。
Oct, 2023
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在 MT-Bench 上高达 0.59 分(1-10 分制),在 AlpacaEval 2.0 上高达 31.94 分(0-100 分制),突显了这种战略性调整的重要影响。
Feb, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024
本文提出了一种新颖的方法,名为 d-PM,采用贝叶斯框架来考虑人类偏好之间的分歧分布,并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型,实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。
Oct, 2023
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现,并接近更大的 Nemotron-4 340B 奖励模型的性能。
Jun, 2024
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
提出一种名为 Themis 的工具增强型偏好建模方法,通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力,增强了解释能力和评分可靠性,在偏好排序任务上取得了 17.7% 的显著改进,并在无需训练情况下,在 TruthfulQA 任务上比 Gopher 280B 高出 7.3% 的表现。
Oct, 2023
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐 LLMs 的评估。
Jun, 2024