降低方差强化学习的控制规范化

ICMLMay, 2019

Control Regularization for Reduced Variance Reinforcement Learning

Richard Cheng, Abhinav Verma, Gabor Orosz, Swarat Chaudhuri, Yisong Yue...

TL;DR介绍了一种基于功能正则化方法的强化学习中的高性能方案，可以相对于一个策略先验进行行为的规则化，进而获得偏差 - 方差的平衡来降低高方差的挑战，并通过自适应调整策略先验，保证稳定性和更高的学习效率

Abstract

Dealing with high variance is a significant challenge in model-free reinforcement learning (RL). Existing methods are unreliable, exhibiting high variance in performance from run to run using different initializations/seeds. Focusing on problems arising in continuous control, we propos

reinforcement learning functional regularization policy prior bias-variance trade-off dynamic stability

发现论文，激发创造

强化学习中的高方差是否不可避免？一项连续控制案例研究

本文探讨了强化学习实验的高方差问题，指出一些不稳定性的原因，然后提出了一种利用正则化技术来解决数值不稳定性问题的方法。经过实验发现，这种方法非常有效，可以减小结果的方差并提高学习速度。

Oct, 2021

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

马尔可夫决策过程中的时间规则化

本篇论文介绍了一种基于时间规则化的强化学习方法，利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性，并表明该技术即使在高维 Atari 游戏中也提供了改进。

Nov, 2018

反向传播虚空：针对黑盒梯度估计优化控制变量

本研究介绍了一种通用框架，用于学习随机变量的黑盒函数的低方差、无偏梯度估计器，并应用于训练离散潜变量模型以及提出了基于优势演员 - 评论家强化学习算法的无偏、行为条件扩展。

Oct, 2017

连续控制任务中带不确定性集合正则化的鲁棒强化学习

本文提出了一种基于不确定参数空间的不确定性集合正则化器 USR，以提高强化学习在真实世界机器人领域中的鲁棒性和推广性，并在实际测试环境下对其进行评估。

Jul, 2022

神经控制变量用于方差降低

本文提出了一种基于神经网络学习的控制变量方法，该方法在数值计算中应用广泛，可显著减少蒙特卡罗估计的方差，其中包括热力学积分和强化学习。

Jun, 2018

REBAR: 离散潜变量模型低方差、无偏梯度估计

本文通过将控制变量与连续松弛相结合的方式来降低离散潜在变量的高方差梯度估计，并引入了一种在线调整松弛度的修改方法，实现了最先进的方差降低并加速了生成建模任务中的收敛。

Mar, 2017

基于正态分布引导的连续控制分布式强化学习

通过使用马尔可夫链中心极限定理，以近似正态分布的形式建模价值分布，分析计算分位数，提出一种基于价值分布的不确定性的策略更新方法，并在 PPO 和 TRPO 算法上进行连续控制任务测试，显示出性能改进。

Aug, 2022

控制变量的多保真度强化学习

研究了基于多种保真度数据的强化学习问题，并提出了一种基于控制变量的多能级估计器以及基于多功能 Monte Carlo RL 方法来提高代理人在高保真度环境中的学习性能。

Jun, 2022

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023