嘈杂网络用于探索
通过引入时序相关的噪音,我们提出了一种噪声尖峰神经体执行者网络(NoisySAN)来解决深度强化学习中的探索问题,并提出了一种噪音减少方法,以找到智能体的稳定策略。大量实验结果表明,我们的方法在 OpenAI gym 的各种连续控制任务中表现优于现有技术水平。
Mar, 2024
通过将参数噪声与传统深度强化学习方法相结合,可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习,并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。
Jun, 2017
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合,该研究在探索性 Atari 游戏中显著提高了性能,特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现,并有时完成第一级别。
Oct, 2018
该研究提出了一种新算法,通过 Thompson 采样和 Bayes-by-Backprop 神经网络,可以显著提高深度 Q 学习代理在对话系统中的探索效率,并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。
Aug, 2016
提出了一种新的探索算法,基于 Bayes-by-Backprop 神经网络和重放缓冲区,可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。
Nov, 2017
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
Feb, 2020
本文提出一种简单有效的技术,通过引入随机卷积神经网络打乱输入观测数据,在提高深度强化学习智能体的泛化能力方面取得了显著效果,并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性,相比于其他正则化和数据增强方法明显更加优秀。
Oct, 2019