批量强化学习中三种正则化方法的比较与统一

ICMLSep, 2021

批量强化学习中三种正则化方法的比较与统一

Comparison and Unification of Three Regularization Methods in Batch Reinforcement Learning

Sarah Rathnam, Susan A. Murphy, Finale Doshi-Velez

TL;DR本篇论文研究了在批量强化学习中，如何利用加正则化的方法解决由于样本不足或过于复杂导致的模型准确度不高和性能不佳的问题，并通过实验验证了在相同的加正则化措施下，MDP 结构和数据集中状态 - 动作对的分布如何影响其性能表现。

Abstract

In batch reinforcement learning, there can be poorly explored state-action pairs resulting in poorly learned, inaccurate models and poorly performing associated policies. Various regularization methods can mitiga

batch reinforcement learning regularization methods markov decision processes weighted average transition matrix data set

发现论文，激发创造

马尔可夫决策过程中的时间规则化

本篇论文介绍了一种基于时间规则化的强化学习方法，利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性，并表明该技术即使在高维 Atari 游戏中也提供了改进。

Nov, 2018

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

折扣正则化的意外后果：提高确定性等价强化学习中的正则化

本文介绍一个基于状态 - 动作对的参数设置方法，用于解决基于折扣因子进行计划的正则化的不足和缺陷，能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。

Jun, 2023

可证明的好的无须强探索批量强化学习

本文介绍了一种基于 Bellman 备份的批量强化学习算法，它采用一种更加保守的更新策略来提高输出策略的性能保证，并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。

Jul, 2020

强化学习中的分布鲁棒性和正则化

本文介绍了一种新的 Wasserstein 分布强化学习框架，并将其与正则化相联系，从而为解决强化学习中的外部不确定性问题提供一个新的实用工具。

Mar, 2020

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

具有双重正则化的马尔可夫决策过程：强鲁棒性和正则化之间的等价性

本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程，我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系，并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地，我们推广了规则化 MDPs 到双重规则化 MDPs，并在表格和物理领域进行了数值验证。

Mar, 2023

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

正则化马尔科夫决策过程理论

本文提出了一种正则化的马尔可夫决策过程的一般理论，结合正则化贝尔曼算子和 Legendre-Fenchel 变换，可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析，并与 Mirror Descent 进行了连接。

Jan, 2019

连续双重约束批次强化学习

本研究提出基于批次强化学习的算法，仅使用固定的离线数据集而非在线与环境的交互来学习有效策略，并通过策略约束和价值约束对数据集不足的情况进行干扰，实现对候选策略的控制，相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。

Feb, 2021