时间延长下的 ε- 贪心探索
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
本文针对 RL 领域中近视探索政策(如 epsilon-greedy、softmax 或 Gaussian noise)在实际应用中表现出全部、部分失败的情况,提出了一种称为 “myopic exploration gap” 的新复杂度度量方式,探讨了它们在特定任务中表现出良好性质和优势。
Jun, 2022
本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。
May, 2018
本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法,以数据效率为主要目标,并使用深度 Q 学习的算法作为研究对象,理论证明了这种算法在策略改进方面的有效性,并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。
Jun, 2022
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
Dec, 2018
该论文通过理论分析探讨了深度强化学习中的深度 Q 网络(DQN)和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析,并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。
Oct, 2023
研究表明,对于纯探索目标的奖励免费探索,按比例缩放的奖励可以带来更快的学习率,从而提高了对于时限的依赖性的已知上限。此外,在最佳策略识别设置中,改进的停止时间分析可以将样本复杂度提高一倍。
Jul, 2020
基于双 Q 函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪 Q 值和保守 Q 值的加权和来更新 Q 值,将行动探索与 Q 值更新相结合,并在 Mujoco 基准测试中展示了优越的性能。
Aug, 2023