ICMLDec, 2020

POMDP 中的强健非对称学习

TL;DR通过使用奖励最大化目标,我们提出了一种高效算法 A2D,共同训练专家和智能体,以帮助智能体模仿一个安全的专家策略,从而优于模仿固定专家所学习的策略。