Nov, 2021

合作游戏的交互式逆强化学习

TL;DR该研究探讨了如何设计自主智能体,使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理Markov决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得,结果显示学习代理的策略对转移函数具有显著影响时,奖励函数可以被高效地学习。