Jun, 2022

基于变分逆强化学习的多任务可迁移奖励学习

TL;DR利用生成对抗网络框架下的多任务环境下的赋能制约技术,从无标记的专家示例中同时学习可转移的多任务奖励函数和策略,并证明其比现有的模仿学习方法具有更好的性能和数据效率。