reward hacking | BriefGPT - AI 论文速递

关键词reward hacking

搜索结果 - 10

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗
本研究提出了一种名为正则化最佳 - n (RBoN) 的策略，通过在响应选择中加入相似性项来减少奖励欺骗问题，并评估了其在 AlpacaFarm 数据集上的表现，发现它们在代理奖励模型与真实目标的相关性较低时优于最佳 - n (BoN)。
PDF3 months ago
通过占用度量规范化防止奖励攻击
奖励破解是指代理根据「代理」奖励函数（可以是手动指定或学习得到的函数）表现出色，但在未知真实奖励方面表现差。我们提出根据状态占据度测量建立正则化模型，以代替行动分布来避免奖励破解，并进行理论和实证研究验证。
PDF4 months ago
常识奖励的多任务逆强化学习
通过将奖励分解为两个不同的部分，即任务特定奖励和常识奖励，并探讨后者如何从专家示范中学习，我们解决了在复杂真实环境中应用强化学习所存在的奖励功能不准确所导致的问题，并证明通过多任务逆向强化学习能够学习到一个有用的奖励函数。
PDF5 months ago
ODIN: 异构奖励减轻 RLHF 中的黑客攻击
通过建立评估协议和使用共享特征表示的两个线性头部，训练模型以预测奖励，一个与长度相关，另一个与长度无关，从而更关注实际内容，以减少奖励与长度的相关性并显著提高策略的性能。
PDF5 months ago
WARM: 关于加权平均奖励模型的好处
通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗，本文提出了一种解决方案，即使用加权平均奖励模型（WARM），通过对多个奖励模型进行微调并在权重空间中进行平均，以提高模型预测的质量和对齐度。
PDF5 months ago
帮助还是群集？奖励模型集合缓解但无法消除奖励攻击
奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词，研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。
PDF7 months ago
弹性重置的语言模型对齐
使用弹性复位算法对语言模型进行微调，以在获得更高奖励的同时减少语言漂移，达到最佳性能。
PDF7 months ago
通过优势模型和选择性回放稳定强化学习
使用 Advantage Model 和 Selective Rehearsal 两种创新方法来稳定 RLHF 训练，以解决大语言模型与人类价值观和偏好之间的对齐问题，并通过在多个数据集上的实验分析表明，这些方法不仅增加了 RLHF 训练的
PDF10 months ago
ICLR奖励错误规划的影响：映射和缓解不匹配的模型
此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励，并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。
PDF2 years ago
NIPS反向奖励设计
设计奖励函数的困难性和可能带来的负面影响，本文介绍一种基于上下文推断真实目标的方法，以及应用该方法规避不当奖励导致的风险。实证研究表明，本方法有效减轻了误设奖励函数的负面影响，并减少了奖励欺骗的可能。
PDF7 years ago