IJCAIJan, 2021
奖赏推断中的选择集错误规范化
Choice Set Misspecification in Reward Inference
Rachel Freedman, Rohin Shah, Anca Dragan
TL;DR本篇研究通过引入选择集调整分类,探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响,并发现部分错误设定并不影响结果,但在某些情况下,失配会极大地损害机器人的推断结果,因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。
Abstract
Specifying reward functions for robots that operate in environments without a
natural reward signal can be challenging, and incorrectly specified rewards can
incentivise degenerate or dangerous behavior. A promising alternative to
manually specifying reward functions is to enable robots to infer them from
→
发现论文,激发创造
奖励错误规划的影响:映射和缓解不匹配的模型
此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励,并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。
Jan, 2022
处理预期不匹配情况下的奖励误设定
使用以 Theory of Mind 为基础的解释性框架 Expectation Alignment (EAL) 来理解目标错配及其原因,并提出了一种基于指定奖励的交互式算法来推断用户对系统行为的期望。
Apr, 2024
关于奖励推断对错误人类模型的敏感性
从人类行为推断奖励函数是实现价值对齐的核心,然而需要人类行为的准确模型,我们在理论和实证研究中发现行为可能出现对抗性商业偏差,同时也能够识别出在合理假设下的奖励推断误差线性受人类模型误差影响的影响范围。
Dec, 2022
奖励合理 (隐式) 选择:奖励学习的统一形式化
研究如何从人类的行为或反馈中学习奖励函数,并提出一种单一的形式化框架,将各种不同类型的行为诠释为人类所做出的奖励选择,这既可用于解读过去的工作,又能为今后的研究提供借鉴和启迪。
Feb, 2020
人类反馈的迭代奖励塑造用于修正奖励误设定
提出了一种利用人类反馈进行迭代奖励塑形的方法(ITERS),允许用户在训练过程中提供轨迹级别的反馈,并结合用户解释来改进奖励函数,成功纠正错误的奖励函数。
Aug, 2023
基于偏好的奖励学习中因果混淆和奖励误识别问题
通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法,本文通过敏感度和消融分析,发现不能考虑多种因素会导致出乎意料和不良行为,如奖励误认和因果混淆等。
Apr, 2022
交互自主学习偏好
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022