LASeR:利用多臂赌博机学习自适应选择奖励模型
本研究使用多臂赌博机方法自动优化多个利润指标,以最大化其在自然语言生成任务中的组合效益,并通过拟合两个带不同奖励结构的赌博机模型来证明其有效性。
Nov, 2020
提出一种名为 Themis 的工具增强型偏好建模方法,通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力,增强了解释能力和评分可靠性,在偏好排序任务上取得了17.7%的显著改进,并在无需训练情况下,在TruthfulQA任务上比Gopher 280B高出7.3%的表现。
Oct, 2023
通过在奖励模型中引入Mixture-of-Experts (MoE)思想,我们提出了一种新的Double-Layer MoE RM (DMoERM)模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成方法。
Mar, 2024
从人类反馈中进行强化学习(RLHF)已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下Expert Iteration的性能最佳。令人惊讶的是,我们发现Expert Iteration的样本复杂度与PPO相似,需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在RL训练期间,模型未能在SFT模型已经产生的解之外进行显着的探索。此外,我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍,并且相反,RL训练同时改善了两者。最后,我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。
Mar, 2024
通过价值增强抽样(VAS)的奖励优化框架,不需要共同训练策略和值函数的情况下,最大化不同奖励函数,相较于现有基线模型,在标准基准测试中不仅优于 PPO 和 DPO,而且与 Best-of-128 相比具有更低的推理成本,从而实现了优化的稳定性,并能适应仅作为 API 提供的 LLMs(例如 ChatGPT),同时为对齐的个性化 LLMs 的未来铺平道路。
May, 2024
将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法,通过提示语言模型生成预训练数据集,以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证,其中一组利用大型语言模型作为预测模拟器,另一组利用共同调查实验的数据进行真实世界实验。
Jun, 2024
本研究针对传统奖励模型在利用人类反馈进行强化学习时的局限性,提出了一种新颖的“公开批评”奖励模型(CLoud)。通过生成自然语言的批评来显式评估回应质量,CLoud模型在奖励预测中表现出更高的准确率,显著改善了基于奖励基准的偏好分类精度,显示出其在提升模型性能方面的潜力。
Aug, 2024
本研究针对传统奖励模型训练中无法有效区分上下文信号与无关伎俩的限制,提出了一种新的因果框架和数据增强技术,以独立于这些伎俩学习偏好。实验结果表明,新提出的稳健奖励模型显著提高了奖励模型的性能和对齐政策的有效性,显示出更好的效果。
Sep, 2024
本研究解决了基于奖励模型的对齐方法由于不稳定性和不完美性带来的挑战,旨在提升大型语言模型(LLMs)的学习可靠性。通过引入一种新的优化目标,结合贝叶斯奖励模型集(BRME)来建模奖励函数的不确定性,该框架在保障性能的同时提高鲁棒性。实证结果表明,该框架在各类基准测试中表现优于传统的RLHF方法,显示出更高的准确性和长期稳定性。
Sep, 2024