强化学习深度非同策略中的动作噪音：对探索和性能的影响

Jun, 2022

强化学习深度非同策略中的动作噪音：对探索和性能的影响

Action Noise in Off-Policy Deep Reinforcement Learning: Impact on Exploration and Performance

Jakob Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo, Justus Piater

TL;DR针对连续控制 R-DL 领域中的离线深度强化学习所采用的简单探索方式（如加性动作噪声），本文对动作噪音的类型、噪音规模、影响缩放因子的减少计划等进行了分析，并从 Gaussian 和 Ornstein-Uhlenbeck 这两个显著的类型中挑选合适的，通过实验表明，噪声的最佳类型和比例取决于环境，并根据观察结果提出了启发式规则来指导选择动作噪声。

Abstract

Many deep reinforcement learning (D-RL) algorithms rely on simple forms of exploration such as the additive action noise often used in continuous control domains. Typically, the scaling factor of this

deep reinforcement learning off-policy action noise gaussian ornstein-uhlenbeck

发现论文，激发创造

参数空间噪声用于探索

通过将参数噪声与传统深度强化学习方法相结合，可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习，并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。

Jun, 2017

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

环境临近目标培训的意想不到的收获

通过添加可量化的参数噪声到训练的转移函数中，在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中，包括 PacMan、Pong 和 Breakout，通过在替代的噪声设置下训练代理能获得较好的结果。

Jan, 2024

增强学习的简单噪声环境增强

本文介绍了针对强化学习 (RL) 的数据增强技术，旨在提高 RL 算法在不同环境下的表现效果，包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术，并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究，结果表明增强技术对增加回报有积极作用。

May, 2023

嘈杂网络用于探索

本研究提出了一种名为 NoisyNet 的深度强化学习智能体，通过参数噪声的添加，可以有效地探索问题空间，在 Atari 游戏中，用 NoisyNet 替换传统的探索启发式方法后，智能体的分数得到了大幅提升，有些情况下，甚至可以达到超人类水平。

Jun, 2017

连续控制中的政策优化问题：噪声邻域下的回报景观

通过研究回报景观，我们对连续控制的深度强化学习代理的不稳定性行为提供了新的视角，并揭示了一维度的策略质量，最终我们开发了一个分布感知的程序以提高策略的鲁棒性。

Sep, 2023

强化学习的潜在探索

提出了 LATent TIme-Correlated Exploration (Lattice) 方法，用于在策略网络的潜在状态中注入时间上相关噪声，以优化高维输入到输出的复杂的运动控制任务中的策略学习，证明了有结构的动作噪声在时间和执行器空间上的有效性。

May, 2023

离散化连续动作空间的策略优化

本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响，发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长，并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。

Jan, 2019

PPO 中的有色噪声：通过相关动作采样改进探索和性能

基于彩色噪声的随机策略改进 PPO 探索性能和学习表现，建议在 PPO 中将相关噪声作为默认噪声源。

Dec, 2023

蒙特卡罗批判优化引导强化学习中的探索

本文提出了一种基于差分定向控制器的指引式探索方法，采用可扩展的探索行为修正，提高了传统探索方案的效率，并为政策和评论者修改提供了一种新算法，优于 DMControl 套件中现代强化学习算法.

Jun, 2022