Apr, 2019

异质行动空间中的强化模仿

TL;DR本文提出了一种逐步平衡模仿学习成本和强化学习目标的方法,使得机器人能够利用稀疏奖励函数来优化其动作,以在导航场景等方面表现出更好的性能。