变分最优N对齐
我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。
Jan, 2024
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对齐:我们应该如何组合多个奖励模型?通过使用与Bradley-Terry偏好模型学习的奖励(常见情况)的概率解释对齐过程,我们确定了一种自然的转换选择。这个派生的转换具有两个重要属性。首先,它强调改进表现较差的输出,而不是已经得分很高的输出。这减轻了欠拟合(其中某些提示没有改进)和奖励欺骗(模型学习利用奖励模型的误规范)。其次,它通过将求和与逻辑合取链接,实现了奖励的有原则的聚合:转换后的奖励的总和对应于在所有测量属性中输出是“好”的概率,我们可以准确刻画这种概率。使用RLHF对调整语言模型以既有帮助又无害的方式进行实验,与基准(未转换)方法相比有显著改进。
Feb, 2024
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过Aligner的监督信号进行微调,进而应用于不同的开源和API-based模型。此外,Aligner提供了很大的性能提升,如对11种不同的LLMs平均提升18%的有用性和23%的无害性(GPT-4提升26.9%和17.5%),对Llama2-70B使用Aligner-7B的监督进行微调,可以提高Llama2的有用性8.2%和无害性61.6%。
Feb, 2024
通过提出一种新的基于价值的校准方法,本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题,并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。
Feb, 2024
本研究提出了一种名为正则化最佳-n (RBoN) 的策略,通过在响应选择中加入相似性项来减少奖励欺骗问题,并评估了其在AlpacaFarm数据集上的表现,发现它们在代理奖励模型与真实目标的相关性较低时优于最佳-n (BoN)。
Apr, 2024
在这篇论文中,我们提出了对最优KL约束RL解的闭式描述。我们证明了任何在KL散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优KL约束RL解。我们还展示了最佳N项对齐与KL约束RL解在期望奖励上渐近等价,并得出结论这两个分布在KL散度上必须相近。
Apr, 2024
该研究主要探讨了使用最佳$n$个样本对大型语言模型进行人类偏好对齐的问题,并比较了最佳$n$样本抽取法与训练LLMs以输出高期望奖励样本的对齐方法之间的关系,并提出了BoNBoN Alignment方法来实现LLM对最佳$n$抽取法的模拟,实验证明BoNBoN对齐能够在最大程度上提高模型的选择性同时最小化对非目标方面的影响。
Jun, 2024
大型语言模型的策略对齐是指在约束的策略优化中,通过优化策略来最大化奖励,同时与参考策略在KL散度等f-散度方面保持接近。文中证明了当参考策略的奖励具有亚高斯尾部时,策略对齐的奖励提升与参考策略之间的KL散度成平方根关系;对于最优n策略,通过Rényi排序的表示以及数据处理不等式,可以获得任何f-散度下的KL上界。此外,如果对于策略对齐的尾部有额外的信息,可以通过Rényi散度获得更严格的奖励改进控制。最后,通过将上界从代理奖励转移到真实奖励,文中展示了由于代理奖励的过度估计和近似误差而导致的真实奖励改进的减少。
Jun, 2024
使用Reinforcement Learning through Human Feedback (RLHF)与probability-quality relationship方法,我们研究了语言模型对文字生成系统的影响,并提出了适应模型选择的采样适配器。
Jun, 2024