Oct, 2022

逆强化学习环境设计

TL;DR通过适应性设计专家演示环境,改善学习效率和鲁棒性,解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。