时间延长下的 ε- 贪心探索

Jun, 2020

Temporally-Extended ε-Greedy Exploration

Will Dabney, Georg Ostrovski, André Barreto

TL;DR本文提出了一种基于时域的 ε- 贪心探索算法，通过重复随机采样的行为来提高探索效果，该算法在许多不同领域都有良好的表现。

Abstract

Recent work on exploration in reinforcement learning (RL) has led to a series of increasingly complex solutions to the problem. This increase in complexity often comes at the expense of generality. Recent empirical studies suggest that, when applied to a broader set of domains, some so

reinforcement learning exploration algorithm ε-greedy temporal persistence domian

发现论文，激发创造

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

函数逼近的 Epsilon-Greedy 强化学习保证

本文针对 RL 领域中近视探索政策（如 epsilon-greedy、softmax 或 Gaussian noise）在实际应用中表现出全部、部分失败的情况，提出了一种称为 “myopic exploration gap” 的新复杂度度量方式，探讨了它们在特定任务中表现出良好性质和优势。

Jun, 2022

当简单探索具有样本效率：确定随机探索达到 PAC RL 算法的充分条件

本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限，该界限依赖于多个结构性质，并将理论结果与某些经验基准领域相关联，以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。

May, 2018

基于偏好引导的随机探索增强学习高效采样方法

本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法，以数据效率为主要目标，并使用深度 Q 学习的算法作为研究对象，理论证明了这种算法在策略改进方面的有效性，并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。

Jun, 2022

探索感知强化学习再探

研究在强化学习中的探索和利用的权衡，通过解决探索感知标准来获得最优政策，结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中，相对于非探索感知对应物表现出更好的性能。

Dec, 2018

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

该论文通过理论分析探讨了深度强化学习中的深度 Q 网络（DQN）和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析，并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。

Oct, 2023

强化学习中纯探索的快速主动学习

研究表明，对于纯探索目标的奖励免费探索，按比例缩放的奖励可以带来更快的学习率，从而提高了对于时限的依赖性的已知上限。此外，在最佳策略识别设置中，改进的停止时间分析可以将样本复杂度提高一倍。

Jul, 2020

细致估计，大胆探索

基于双 Q 函数框架，引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题，通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值，将行动探索与 Q 值更新相结合，并在 Mujoco 基准测试中展示了优越的性能。

Aug, 2023