IJCAIJan, 2021

奖赏推断中的选择集错误规范化

TL;DR本篇研究通过引入选择集调整分类,探讨机器人从人类反馈中推断出奖励函数时选择集被错误设定的后果对性能的影响,并发现部分错误设定并不影响结果,但在某些情况下,失配会极大地损害机器人的推断结果,因此希望我们的结果能够为实际的奖励推理带来更好的预测和响应。