通过引导的深度 Q 学习进行深度探究

Feb, 2016

通过引导的深度 Q 学习进行深度探究

Deep Exploration via Bootstrapped DQN

Ian Osband, Charles Blundell, Alexander Pritzel, Benjamin Van Roy

TL;DR为解决强化学习中复杂环境下的探索问题，本文提出了一种简单的算法 bootstrapped DQN，通过使用随机值函数实现计算上和统计上的高效探索。与 epsilon-greedy 策略不同，bootstrapped DQN 实现了时序扩展探索，从而可以实现指数级别的更快学习。我们在复杂随机 MDPs 和大规模的街机学习环境中展示了这些优点，并发现 Bootstrapped DQN 可以显著提高 Atari 游戏的学习时间和表现。

Abstract

Efficient exploration in complex environments remains a major challenge for reinforcement learning. We propose bootstrapped dqn, a simple

reinforcement learning exploration bootstrapped dqn value functions atari games

发现论文，激发创造

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

任务导向对话系统中深度强化学习的高效探索

提出了一种新的探索算法，基于 Bayes-by-Backprop 神经网络和重放缓冲区，可以大大提高深度 Q 学习在对话系统中的效率并比传统的探索策略学习得更快。

Nov, 2017

慕尼黑强化学习

本文提出一种利用当前策略对强化学习中未知状态值的估计方法，以及通过在 DQN 和 IQN 算法中添加缩放的 log 策略函数获得与分布式 RL 相竞争的新代理的实验研究和理论分析。

Jul, 2020

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

探索性梯度提升用于复杂领域强化学习

该研究提出一种非参数函数逼近器和基于状态抽象和信息获取的不确定性探索策略来处理高维环境下的强化学习挑战，并在 Minecraft 游戏中进行了验证，结果表明这两种技术结合起来在标准强化学习任务中表现出色并在高维观察空间的任务中优于基准算法，这为强化学习技术在真实世界中的应用提供了一个有力的方法。

Mar, 2016