ICMLMay, 2019

降低方差强化学习的控制规范化

TL;DR介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率