DR3：基于价值的深度强化学习需要明确的正则化

Dec, 2021

DR3：基于价值的深度强化学习需要明确的正则化

DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization

Aviral Kumar, Rishabh Agarwal, Tengyu Ma, Aaron Courville, George Tucker...

TL;DR本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明，隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题，并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。

Abstract

Despite overparameterization, deep networks trained via supervised learning are easy to optimize and exhibit excellent generalization. One hypothesis to explain this is that overparameterized deep networks enjoy the benefits of implicit regularization induced by stochastic gradient des

deep reinforcement learning implicit regularization degenerate feature representations offline learning dr3

发现论文，激发创造

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

深度强化学习的数据效率受到参数欠约束的抑制

利用神经网络近似值函数的基于价值的深度强化学习方法存在隐含的欠参数化现象，该现象会通过下降学习到的价值网络特征的排名导致性能下降，控制特征排名的崩溃可以缓解这一现象并改善性能。

Oct, 2020

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

强化学习中 LSTD 和随机特征的双下降

研究论文通过理论分析和数值实验，研究了深度强化学习中时间差分算法的表现受神经网络规模和 $l_2$- 正则化的影响，发现参数和状态的比例是一个关键因素，还观察到双谷现象，即当参数 / 状态比例为 1 时性能会突然下降。

Oct, 2023

马尔可夫决策过程中的时间规则化

本篇论文介绍了一种基于时间规则化的强化学习方法，利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性，并表明该技术即使在高维 Atari 游戏中也提供了改进。

Nov, 2018

深度符号强化学习

该研究提出了一个神经和符号端到端强化学习架构，能够克服当前深度学习技术的局限性，如需要非常大的数据集工作、难以实现高级认知功能和透明性欠佳等。研究者以简单的视频游戏为例，展示了这个架构的实现原型，结果表明它能够有效地学习，并通过获得一组符号规则，可将性能提高到比传统完全神经强化学习系统更好的水平。

Sep, 2016

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

强化学习中的分布鲁棒性和正则化

本文介绍了一种新的 Wasserstein 分布强化学习框架，并将其与正则化相联系，从而为解决强化学习中的外部不确定性问题提供一个新的实用工具。

Mar, 2020

基于模型的正则化方法和转码网络的深度强化学习

本文提出了一种基于价值的深度强化学习的新的优化目标，通过增加模型学习组件来扩展传统的 DQN，以产生一个转码器网络，学习环境模型和强化学习问题共享结构，该模型的预测误差被包含在基本 DQN 损失中作为额外的正则化项，改进了采样效率和性能。在 Atari 基准测试的 20 个游戏中，我们实验证明了我们的假设，获得了比基础 DQN 更好的结果。

Sep, 2018

深度强化学习的浅层更新

本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法，它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明，与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比，LS-DQN 在五个 Atari 游戏中均表现出显著的性能提升，此方法优越的性能主要归功于优化最后一层时所使用的大批量线性最小二乘方法。

May, 2017