通过修剪原型目标扩展目标导向探索的规模
Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的“detach”和“derailment”问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
本文探讨了当测试目标分布过于远离时,多目标强化学习应当追求怎样的目标,提出了优化历史完成目标分布熵的内在目标,通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索,成功提高了长期目标任务中的数据利用效率。
Jul, 2020
本文对Go-Explore论文中未解决的问题进行了系统研究,通过对一系列MiniGrid环境的实验发现,采用后探索策略能够显著提高强化学习的性能,并利用新的自适应方法进一步提高了效果,证明了自适应后探索是强化学习探索研究的一个有前途的方向。
Mar, 2022
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
该论文研究了强化学习领域中的一种新方法“Go-Explore”,通过后探索(post-exploration)的方式探明未知状态,通过试验在MiniGrid和Mujoco环境下得出结论,该方法具有通用性,易于实现,RL研究人员可考虑在intrinsically motivated goal exploration process中采用post-exploration。
Dec, 2022
本文提出了Planning Exploratory Goals(PEG)方法,在目标条件强化学习中以直接优化内在探索奖励为目的,为每个训练周期设置目标,从而最大限度地探索环境,通过学习世界模型和适应采样规划算法来规划目标命令,从而实现更有效的训练。
Mar, 2023
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
通过分析优化目标条件下的价值函数的几何特征,我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像,并在各种模拟环境中显著提高了零-shot目标达成性能。
Nov, 2023
本研究解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改,研究表明,智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。
Aug, 2024
本研究针对无监督目标条件强化学习在未知环境中高效探索的挑战,提出了一种新的目标导向探索算法“簇边探索($CE^2$)”。该方法通过聚类策略选择在稀疏探索区域内可达的目标状态,从而显著提高了机器人在复杂环境中的探索效率,较基线方法表现更为优秀。
Nov, 2024