reward modeling | BriefGPT - AI 论文速递

关键词reward modeling

搜索结果 - 15

DogeRM: 通过模型合并为奖励模型提供领域知识
通过模型合并将领域知识整合到通用奖励模型中，提高了对齐大型语言模型的性能。
PDF3 days ago
关于奖励模型、参数更新和上下文提示的变换
我们展示了三种常用的适应工具的互换性，分别为参数更新、奖励建模和上下文提示，形成了一个三角形框架，建立了六个转换方向，每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点，并提出了潜在的研究方向。我们希望我们的工作成为未
PDF10 days ago
PAL：异构偏好学习的多元对齐框架
大规模基础模型预训练在原始网络数据上，无法直接部署，需要经过广泛的与人类偏好的协调。本文提出 PAL 框架，将人类偏好的多样性融入到预训练策略中，通过理想点模型和混合建模方法，捕捉到群体偏好的多样性，同时学习一种常用的偏好潜空间，能够适应新
PDF22 days ago
Xwin-LM：强大且可扩展的 LLM 对齐实践
Xwin-LM 是一套适用于大型语言模型（LLM）的综合对齐方法学，包括 SFT、RM、RS 和 DPO 等关键技术，并通过 AlpacaEval 和 MT-bench 的评估证明了其稳定和可扩展性。
PDFa month ago
从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括
强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性，通过将 RLHF 过程形象化为文本分布上的自动编码过程，研究奖励建模阶段中信息结构
PDF5 months ago
通过信息论奖励建模减轻奖励作弊
本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cl
PDF5 months ago
大型语言模型对齐的多样化偏好
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有
PDF7 months ago
强化学习中的主动教师选择
隐藏效用强盗（HUB）框架及主动教师选择算法（ATS）在多教师情境下学习准确奖励模型方面表现出色，为活跃教师选择提供了有力支持，并促进了对于强化学习的未来研究。
PDF8 months ago
理解从人类偏好中学习的一般理论范式
通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似
PDF9 months ago
工具辅助奖励建模
提出一种名为 Themis 的工具增强型偏好建模方法，通过赋予奖励模型与计算器和搜索引擎等外部环境的交互能力，增强了解释能力和评分可靠性，在偏好排序任务上取得了 17.7% 的显著改进，并在无需训练情况下，在 TruthfulQA 任务上比
PDF9 months ago
和谐世界模型：提高基于模型的强化学习的样本效率
通过进行实证调查，这篇论文深入研究了世界模型中观察建模和奖励建模的作用，并发现在调和观察和奖励建模之间的干扰方面存在更高效的模型驱动强化学习的潜力。借助这些发现，提出了一种称为 Harmony World Models（HarmonyWM）
PDF9 months ago
通过合成反馈对齐大型语言模型
本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型
PDFa year ago
不完美也值得奖励：面向更好对话管理的多层次和序列奖励建模
本文提出了一种多层次奖励建模方法，以分解整个奖励信号并提高对话系统在强化学习方面的性能，实验结果表明本方法能提高对话系统的性能和收敛速度。
PDF3 years ago
通过奖励建模实现可扩展的智能体协调方向研究
本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。
PDF6 years ago
NIPS基于转移的提及检测的强化学习
本文利用强化学习方法，提出一种基于动作的新颖方案用于实体识别的任务，并使用训练集生成实例级别的事件，同时还使用奖励模型获得正确标记完成的实例，从而提高了长实例的内部结构并且结果与竞争性有监督的对照组相当。
PDF7 years ago