基于偏好的奖励学习中因果混淆和奖励误识别问题
本文提出了 ReCCoVER 算法,该算法可以在出现因果混淆的情况下增强深度强化学习智能体的透明度和可靠性,并为开发人员提供基于实际状态空间的特征选择建议。
Mar, 2022
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励,并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。
Jan, 2022
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019
研究文章探讨了从人类偏好中学习奖励函数的算法,特别是在人类反馈的强化学习中,最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑,并提出了基于遗憾的替代偏好模型。研究结论发现,当将基于部分回报的偏好错误地用作奖励函数时,尽管存在特定的问题,但并不会产生太大的影响,仍然可以产生高度优化的奖励函数,但这种使用方式并不理想,相比之下,采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看,我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说,本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解,尽管该模型与人类偏好的方式不太吻合。
Oct, 2023
本文针对学习奖励模型所面临的挑战,探讨了正例 - 无标记学习算法(positive-unlabeled learning)在奖励学习问题中的应用,并验证该方法可以同时解决奖励低估和高估问题,从而显著提高 both GAIL and supervised 奖励学习的效果。
Nov, 2019