- 迭代数据平滑:在 RLHF 中缓解奖励过拟合和过优化
本研究探讨了来自人类反馈的强化学习(RLHF)技术,通过利用排名数据的奖励模型学习人类价值观,设计了一种称为 “迭代数据平滑”(IDS)的改进奖励学习算法,实证发现该方法表现优于传统方法。
- 利用人类反馈改进机器翻译:基于质量估计的奖励模型探索
在这项研究中,我们调查了采用质量估计 (QE) 模型作为奖励模型 (基于 QE 的奖励模型) 以预测人类偏好用于反馈训练的潜力,并解决了过优化问题以及错误传播问题。通过准确检测出错误翻译并对其进行罚分,我们提出了一种简单而有效的方法。实验结 - WARM: 关于加权平均奖励模型的好处
通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗,本文提出了一种解决方案,即使用加权平均奖励模型(WARM),通过对多个奖励模型进行微调并在权重空间中进行平均,以提高模型预测的质量和对齐度。
- 上下文强化学习中基于一般协变量转移的分布稳健策略评估
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优 - 基于结构风险最小化的未知奖励模型的逆强化学习
通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的 Rademacher 复杂度的上界。通过模拟实验验证了该方 - RLHF 中的策略优化:偏离偏好数据的影响
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
- 压缩与对齐:用人类知识筛选图像文本数据
该研究通过采用人工智能算法对图像文本数据进行高质量压缩,并利用训练出的奖励模型作为人类般的裁判来过滤不对齐 / 低质量的图像文本对。
- 纳什学习来自人类反馈
通过带有人类反馈的强化学习,我们引入一种新的方法来提升大型语言模型的性能,通过学习人类偏好并优化策略,实现与人类偏好的协调。
- 利用人类反馈对扩散模型进行微调,无需任何奖励模型
使用直接偏好优化方法直接优化扩散模型,在不需要训练奖励模型的情况下,通过相对目标的比例作为人类偏好的代理实现了可比较的结果,减少了图像畸变率并生成了更安全的图像。
- 基线分析奖励模型在分布转移下准确分析基础模型的能力
基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下 - 神经机器翻译模型的对齐:训练和推理中的人工反馈
通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。
- SuperHF:基于人类反馈的监督式迭代学习
基于大型语言模型对齐的一种新方法 SuperHF,旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Hu - 守口如瓶:从人类反馈中减轻强化学习的长度偏差
通过使用 “Product-of-Experts(PoE)” 技术,我们提出了一种创新的解决方案,将奖励建模与序列长度的影响相分离,从而使语言模型的性能得到提升。
- 奖励(不)一致性对 RLHF 的渗透影响
通过对奖励模型 (RM) 的一致性进行研究,本文提出了一种基于对比指令的策略来测量奖励模型的一致性,并提出了 ConvexDA 和 RewardFusion 两种技术来提高奖励模型的一致性,实验证明了更一致的 RM 对下游 RLHF 模型的 - 使用人类反馈的 3 分钟扩散模型的审查取样
使用经过预训练的扩散模型和在最小人类反馈上训练的奖励模型,我们展示了用极高的人类反馈效率实现的屏蔽图像生成任务,仅几分钟的人类反馈标签足以完成此任务。
- 精细调整包容性语言模型的代理 - 环境接口破碎
本文提出了一种新的方法,将预训练的语言模型同时用作策略、奖励函数和转移函数,从而实现了奖励学习和语言模型微调的联合和直接处理,并通过处理认知不确定性来实现高效探索。
- 为离线评估学习动作嵌入
本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使 - 利用 POMDP 树搜索进行奖励模型调和的解释
为了提高人们对人工智能系统的信任,本研究致力于调节在线部分可观察马尔可夫决策规划算法的奖励模型与人类用户所假设的奖励模型之间的差异,并通过分析算法与用户之间的差异以估计用户的目标。
- 使用强化学习将英语中等规模 GPT 模型对齐到西班牙语小闭域中
本文提出一种将原本用于英语开放域的中型 GPT 模型对齐到西班牙语的小型闭域的方法,并使用神经网络训练和实现了 “奖励模型”,来提高系统答案的解码和生成,结果表明这种方法是可行的。
- 奖励数百万用户与聊天机器人的现实世界互动
该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人,通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率,从而达到使用者参与度优先的目的。研究结果表明,这种方法可以将聊天长度增加高达 70%,使 GPT-J 6B 模型的