本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
本研究提出使用深度表示学习算法学习目标空间的方法,通过此方法可以发现探索算法,与工程化表示法相比性能表现相匹配。
Mar, 2018
本文介绍了如何使用内在动机和深度学习算法来有效生成目标空间,提出了使用解耦目标空间可以更好地进行探索,同时利用模块化学习进度驱动求知型探索,同时发现了环境的独立可控特征。
通过分析优化目标条件下的价值函数的几何特征,我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像,并在各种模拟环境中显著提高了零 - shot 目标达成性能。
Nov, 2023
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
Jun, 2023
提供一种新的方法 Explore-Go,通过增加代理训练的状态数目,从而有效地增加代理的起始状态分布,以提高强化学习中的泛化性能。
Jun, 2024
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
本文提出了 Planning Exploratory Goals(PEG)方法,在目标条件强化学习中以直接优化内在探索奖励为目的,为每个训练周期设置目标,从而最大限度地探索环境,通过学习世界模型和适应采样规划算法来规划目标命令,从而实现更有效的训练。
Mar, 2023
通过自适应技能分布来优化探索效率,并且提高对环境结构模式的利用,这能够显著改善目标导向强化学习中的探索效率,并在具有类似局部结构的未知任务中展现强大的泛化能力。
Apr, 2024