基于状态抽象的近似探索
这篇论文研究了在强化学习中,如何使用基于密度模型的伪计数、PixelCNN 等技术进行探索,特别考虑了密度模型对探索的影响,并发现 Monte Carlo 更新在探索中的作用。结果发现结合 PixelCNN 和不同结构的代理可以显著提高在多个难的 Atari 游戏中的性能,当模型假设被违反时,该方法更实用和普适。
Mar, 2017
本文介绍了一种新的计数乐观探索算法,可在高维状态 - 动作空间中使用,并提出了一个新方法来计算泛化状态的访问次数,从而解决了限制训练经验进行广义状态估计的问题。实验表明,该算法在高维 RL 基准测试中取得了接近最新的结果,且计算代价较低。
Jun, 2017
本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明,使用近似抽象可以减少任务复杂度和行为最优性的损失。
Jan, 2017
本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。
Dec, 2022
使用密度模型衡量不确定性,提出了一种从任意密度模型中导出虚拟计数的新算法,并将其应用于 Atari 2600 游戏中,通过将这些虚拟计数转化为内在奖励,取得了显著的改进。
Jun, 2016
提出了一种基于后验概率分布的奖励加成方法,用于在 Bayesian RL 中解决探索与利用之间的困境,实现高效且有效的探索,能够利用结构化的先验知识,并证明其具有多项式样本复杂度。
Mar, 2012
通过使状态映射到哈希码中并使用哈希表计算它们的出现次数,来提高高维状态空间下的基于计数的探索策略解决 MDP 问题的性能。实验发现,简单的哈希函数和领域相关的学习哈希码都可以大大提高基于计数的探索策略的性能,且在连续控制任务和 Atari 2600 游戏中取得了接近最先进的性能表现。
Nov, 2016
研究了强化学习(RL)方法在探索复杂环境时的有效性,并引入通过椭圆形周期性奖励探索方法(E3B)以扩展计数周期性奖励至连续状态空间,使用反向动力学模型学习嵌入以捕获环境可控方面,可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art,而不需要特定于任务的归纳偏差,并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配,在 Habitat 上的无奖励探究中优于现有方法。
Oct, 2022
本文提出了一种名为 HyperX 的方法,利用元学习的奖励机制,通过近似超状态空间来探索,从而解决了在稀疏奖励情况下元训练的任务探索问题。实验证明,HyperX 方法可以更好地元学习,成功地适应新任务。
Oct, 2020