稳健且平滑的深度强化学习策略

ICMLMar, 2020

Deep Reinforcement Learning with Robust and Smooth Policy

Qianli Shen, Yan Li, Haoming Jiang, Zhaoran Wang, Tuo Zhao

TL;DR提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Abstract

deep reinforcement learning (RL) has achieved great empirical successes in various domains. However, the large search space of neural networks requires a large amount of data, which makes the current RL algorithms not sample efficient. Motivated by the fact that many environments with

deep reinforcement learning smooth policy regularization sample efficiency robustness

发现论文，激发创造

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

基于状态规约的动力转移数据策略优化

通过学习具有相似环境结构但不同动力学的数据的稳态分布，使用稳态分布规范化策略并构建 SRPO 算法来解决 Reinforcement Learning 算法训练数据分布不同的问题，并在实验中验证了其有效性。

Jun, 2023

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023

突破障碍：平滑 DRL 代理程序中的增强效用和鲁棒性

我们提出了 S-DQN 和 S-PPO 方法，通过对现有平滑代理的改进，在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证，平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外，我们引入了 Smoothed Attack，比现有对抗性攻击方法降低平滑代理奖励的效果提高了 $1.89 imes$。

Jun, 2024

复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

传统控制器有局限性，深度强化学习通过在环境中进行探索来学习最优控制策略，为安全关键环境提出专门的深度残差策略安全强化学习方法，并在 Tennessee Eastman 过程控制中进行验证。

Oct, 2023

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

DreamSmooth: 通过奖励平滑改进基于模型的强化学习

基于模型的强化学习（MBRL）通过生成带有预测奖励的虚拟轨迹来规划动作，以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth，通过学习预测时间上平滑的奖励，而不是给定时间步的精确奖励。实证结果表明，DreamSmooth 在长时间范围的稀疏奖励任务上实现了最先进的性能，同时在常见的基准测试中也不损失性能，如 Deepmind 控制套件和 Atari 基准。

Nov, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

RL$^2$: 快速增强学习通过慢增强学习

通过将强化学习算法 RL^2 表示为递归神经网络并从数据中学习，我们提出了一种方法来尝试理解替代动物的快速学习过程。我们在具有优化性能保证的情况下评估了 RL^2 的性能，并证明它适用于高维问题。

Nov, 2016