Apr, 2020

基于能量的模仿学习

TL;DR该论文提出了一种简化的能量基模仿学习(EBIL)框架,该框架使用分数匹配来估计专家能量,然后使用其作为强化学习算法中的奖励来学习策略,以实现与目前现有算法相当的性能水平。