ICMLFeb, 2021

基于后继特征与逆时序差分学习的示范增强学习 (PsiPhi-Learning)

TL;DR该研究探讨了如何利用没有奖励标签的演示样本进行强化学习,提出了一种基于继承特征的多任务反向强化学习算法,证明了该算法在零样本迁移方面的有效性和性能上界,并且展示了在几种应用领域的具体应用。