Go-Explore:一种解决困难探索问题的新方法
Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的 “detach” 和 “derailment” 问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
该论文研究了强化学习领域中的一种新方法 “Go-Explore”,通过后探索 (post-exploration) 的方式探明未知状态,通过试验在 MiniGrid 和 Mujoco 环境下得出结论,该方法具有通用性,易于实现,RL 研究人员可考虑在 intrinsically motivated goal exploration process 中采用 post-exploration。
Dec, 2022
利用 Go-Explore 算法来解决居民能源管理问题中的节约成本任务,并与众所周知的强化学习算法相比,取得了高达 19.84% 的改进。
Jan, 2024
提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
Dec, 2018
本文对 Go-Explore 论文中未解决的问题进行了系统研究,通过对一系列 MiniGrid 环境的实验发现,采用后探索策略能够显著提高强化学习的性能,并利用新的自适应方法进一步提高了效果,证明了自适应后探索是强化学习探索研究的一个有前途的方向。
Mar, 2022
研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 Atari 2600 游戏方面表现不出色,而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化,而不是更好的探索计划。
Sep, 2021
通过在游戏的导航网格上使用基于 Go-Explore 算法的简单启发式算法,以及并行处理器,实现了在测试游戏中发现难以察觉的到达性缺陷和全面探索复杂环境的目的,避免了需要人工演示或了解游戏动态的需求。Go-Explore 在覆盖导航网格和发现地图上的独特位置方面比包括驱动好奇心的强化学习在内的更复杂基线表现更好。
Sep, 2022
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
Feb, 2020
该论文利用学习到的潜在表示,引入了基于 “Go-Explore” 范例的 “潜在 Go-Explore”(LGE) 方法,该方法将普适应用于强化学习探索任务中,并在多个具有遥远探索难度的环境中展现比当下最佳算法更具鲁棒性和优异性能,例如 Montezuma's Revenge 环境。
Aug, 2022