奖励错误规划的影响:映射和缓解不匹配的模型
我们提出了一种新的观点,认为大型语言模型的脆弱性是由于在对齐过程中奖励错误规定所导致的,并引入了一种度量奖励错误规定程度的指标 ReGap。我们在此基础上提出了一种自动红队测试系统 ReMiss,用于生成针对各种目标对齐的大型语言模型的对抗性提示。ReMiss 在 AdvBench 基准测试中实现了最先进的攻击成功率,并保持了所生成提示的人类可读性。详细分析突出了所提出的奖励错误规定目标相比之前方法的独特优势。
Jun, 2024
本篇研究通过引入选择集调整分类,探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响,并发现部分错误设定并不影响结果,但在某些情况下,失配会极大地损害机器人的推断结果,因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。
Jan, 2021
使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因,并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。
Apr, 2024
奖励模型、语言模型、奖励欺骗、奖励集合以及对齐是该研究论文的关键词,研究内容主要探讨了奖励模型在校准语言模型应用中的应用及存在的问题。
Dec, 2023
通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法,本文通过敏感度和消融分析,发现不能考虑多种因素会导致出乎意料和不良行为,如奖励误认和因果混淆等。
Apr, 2022
本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制,从信息论的角度解决了强化学习中奖励建模的问题,并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识,提出了一种用于检测奖励过度优化的指标 Integrated Cluster Deviation Score (ICDS),从而促进在线减缓策略的发展。经过一系列实验证明了 InfoRM 的有效性,进一步分析显示其奖励过度优化检测机制的有效性,这可能标志着 RLHF 领域的显著进步。
Feb, 2024
该研究论文探讨了在强化学习中出现奖励数据错误的情况,提出了一种通用的马尔可夫决策问题模型(Corrupt Reward MDP),并结合反向强化学习和半监督强化学习的策略对奖励数据错误的解决方法进行了探讨。同时指出在某些假设下通过随机化也可以部分解决奖励数据错误的问题。
May, 2017