嘈杂网络用于探索

ICLRJun, 2017

Noisy Networks for Exploration

Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Ian Osband...

TL;DR本研究提出了一种名为 NoisyNet 的深度强化学习智能体，通过参数噪声的添加，可以有效地探索问题空间，在 Atari 游戏中，用 NoisyNet 替换传统的探索启发式方法后，智能体的分数得到了大幅提升，有些情况下，甚至可以达到超人类水平。

Abstract

We introduce noisynet, a deep reinforcement learning agent with parametric noise added to its weights, and show that the induced stochasticity

noisynet deep reinforcement learning exploration stochasticity atari games

发现论文，激发创造

噪声的尖峰演员网络探索

通过引入时序相关的噪音，我们提出了一种噪声尖峰神经体执行者网络（NoisySAN）来解决深度强化学习中的探索问题，并提出了一种噪音减少方法，以找到智能体的稳定策略。大量实验结果表明，我们的方法在 OpenAI gym 的各种连续控制任务中表现优于现有技术水平。

Mar, 2024

参数空间噪声用于探索

通过将参数噪声与传统深度强化学习方法相结合，可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习，并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。

Jun, 2017

极端嘈杂观测下的多智能体深度强化学习

使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好，相比基线模型具有显著性能提升。

Dec, 2018

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

随机网络提炼的探索

通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合，该研究在探索性 Atari 游戏中显著提高了性能，特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现，并有时完成第一级别。

Oct, 2018

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019