ICLRMay, 2019
KL 正则化强化学习中的信息不对称
Information asymmetry in KL-regularized RL
Alexandre Galashov, Siddhant M. Jayakumar, Leonard Hasenclever, Dhruva Tirumala, Jonathan Schwarz...
TL;DR研究如何通过限制收集到的信息,学习可重用行为作为默认策略,从而加速和规范学习过程,同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系,并在离散和连续动作领域提出了经验结果。