解耦动作空间的正则化

Jun, 2024

Decoupling regularization from the action space

Sobhan Mohammadpour, Emma Frejinger, Pierre-Luc Bacon

TL;DR研究论文的主要内容是关于正则化强化学习，尤其是熵正则化的方法在最优控制和逆强化学习方面的应用。论文指出，改变动作数量对于标准非正则化强化学习方法没有影响，但会严重影响正则化的方法。为了避免过度正则化，需要解耦作用空间与正则项，并提出两种解决方案，即静态温度选择方法和动态对应方法，能在出现该问题的情况下普遍适用。实验结果表明，这些改变提高了在静态和动态温度条件下的 DeepMind 控制套件和生物序列设计任务的性能。

Abstract

regularized reinforcement learning (RL), particularly the entropy-regularized kind, has gained traction in optimal control and inverse RL. While standard unregularized RL methods remain unaffected by changes in t

regularized reinforcement learning entropy-regularized action spaces over-regularization temperature parameter

发现论文，激发创造

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023

马尔可夫决策过程中的时间规则化

本篇论文介绍了一种基于时间规则化的强化学习方法，利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性，并表明该技术即使在高维 Atari 游戏中也提供了改进。

Nov, 2018

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

降低方差强化学习的控制规范化

介绍了一种基于功能正则化方法的强化学习中的高性能方案，可以相对于一个策略先验进行行为的规则化，进而获得偏差 - 方差的平衡来降低高方差的挑战，并通过自适应调整策略先验，保证稳定性和更高的学习效率

May, 2019

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

解耦动态与奖励的迁移学习

本文提出了一种分离式学习策略，通过创造共享的表示空间来保证知识可以稳健地转移，分离学习任务表示，前向动力学，反向动力学和领域奖励函数，并表明这种分离可以提高任务内的性能并有效用于在线计划，在连续和离散 RL 领域中表现良好。

Apr, 2018

使用深度强化学习学习运动技能：行动空间选择的影响

本文研究了用于高维状态描述的深度强化学习，并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看，本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。

Nov, 2016