参数空间噪声用于探索
针对连续控制 R-DL 领域中的离线深度强化学习所采用的简单探索方式(如加性动作噪声),本文对动作噪音的类型、噪音规模、影响缩放因子的减少计划等进行了分析,并从 Gaussian 和 Ornstein-Uhlenbeck 这两个显著的类型中挑选合适的,通过实验表明,噪声的最佳类型和比例取决于环境,并根据观察结果提出了启发式规则来指导选择动作噪声。
Jun, 2022
通过添加可量化的参数噪声到训练的转移函数中,在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中,包括 PacMan、Pong 和 Breakout,通过在替代的噪声设置下训练代理能获得较好的结果。
Jan, 2024
本研究提出了一种名为 NoisyNet 的深度强化学习智能体,通过参数噪声的添加,可以有效地探索问题空间,在 Atari 游戏中,用 NoisyNet 替换传统的探索启发式方法后,智能体的分数得到了大幅提升,有些情况下,甚至可以达到超人类水平。
Jun, 2017
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
本文介绍了针对强化学习 (RL) 的数据增强技术,旨在提高 RL 算法在不同环境下的表现效果,包括引入噪声、探索状态空间和改善训练数据的多样性。作者提出了两种新的增强技术,并在三种常用的 RL 算法和五个 MuJoCo 环境中进行实验研究,结果表明增强技术对增加回报有积极作用。
May, 2023
本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间,成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别,并比 2012 RoboCup 冠军代理更可靠地得分。
Nov, 2015
该研究论文提出了一种基于 `meta-policy gradient` 算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近 actor 策略的局部区域的问题,从而实现独立于 actor 策略的全局探索,而这对各种强化学习任务的样本效率都有相当大的提升。
Mar, 2018
深度强化学习和迁移学习的结合是选择适当的能量管理策略的更加高效的方法,并且对比了使用不同探索方法的深度强化学习的迁移学习过程中的性能,结果显示在参数空间加入噪声的网络更加稳定和迅速收敛。
Feb, 2022
在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018