ICMLMay, 2019
降低方差强化学习的控制规范化
Control Regularization for Reduced Variance Reinforcement Learning
Richard Cheng, Abhinav Verma, Gabor Orosz, Swarat Chaudhuri, Yisong Yue...
TL;DR介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率