探索性示例模型用于深度强化学习

Mar, 2017

探索性示例模型用于深度强化学习

EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

Justin Fu, John D. Co-Reyes, Sergey Levine

TL;DR本文提出了一种基于判别式训练范例模型的探索性新颖性检测算法，该算法可以应用于稀疏回报问题的深度强化学习任务，此方法在 vizDoom 基准测试中取得了最先进的结果。

Abstract

deep reinforcement learning algorithms have been shown to learn complex tasks using highly general policy classes. However, sparse reward problems remain a significant challenge. exploration methods based on

deep reinforcement learning novelty detection discriminative modeling exploration vizdoom benchmark

发现论文，激发创造

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

生成对抗探索强化学习

本文提出一种新方法，即生成对抗性探索 (GAEX)，来通过引入来自生成对抗网络的内在奖励，鼓励强化学习中的探索，以帮助鉴别是否访问了新颖的状态，而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明，在 DQN 上应用 GAEX，可以在不进一步调整复杂的学习算法的情况下，在具有挑战性的探索问题中实现令人信服的性能提升，包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知，这是首次使用 GAN 解决强化学习中的探索问题。

Jan, 2022

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

基于邻近状态的强化学习探索

本文研究了强化学习中的探索开发平衡问题，并提出两种基于邻近状态的无模型探索算法，其中一种方法（${ho}$-explore）在离散环境中相比于基准算法 Double DQN，在评估奖励回报方面提高了 49％。

Dec, 2022

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

利用深度神经网络和期望模型输出变化进行主动和连续的探索

我们提出了使用基于深度神经网络的期望模型输出变化的新原则来实现连续主动学习和探索算法，为语义概念的主动获取提供一种解决方法，并且我们的实现方法在实验中优于目前使用的启发式算法。

Dec, 2016