ICLRMay, 2019

KL 正则化强化学习中的信息不对称

TL;DR研究如何通过限制收集到的信息,学习可重用行为作为默认策略,从而加速和规范学习过程,同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系,并在离散和连续动作领域提出了经验结果。