稳定子目标表示学习的主动层次探索
通过动态构建潜在标志图 (HILL) 学习潜在目标表示,以解决 GCHRL 中的时间连贯性和探索与利用之间的平衡问题,并通过同时考虑节点和边的新颖性和效用度量开发了平衡探索与利用的子目标选择策略。
Jul, 2023
高层策略给出低层策略达到的子目标,在这篇论文中,我们提出了一种基于高斯过程的概率子目标表示方法,通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息,从而适应不确定性。同时,我们还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且我们的模型在不同任务之间转移低层策略具有良好的性能。
Jun, 2024
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
本文介绍了 HIerarchical reinforcement learning Guided by Landmarks (HIGL) 框架,该框架通过引导探索性的 Landmarks 来训练具有减少动作空间的高层级策略,实现高效探索。实验结果表明,该框架在控制任务中表现优异。
Oct, 2021
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
研究了目标驱动分层强化学习中表征学习的问题,提出了表征的子最优性的概念,并给出了衡量表征子最优性的指标,用于优化表征学习目标。实验结果表明该方法在连续控制任务上具有优越性。
Oct, 2018
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023
本文研究了基于目标的层次强化学习(HRL)中高层次行动空间(即目标空间)的训练效率问题,提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域,证明该约束在确定性 MDPs 下保留了最优层次策略,实现方法是训练一个区分相邻和非相邻子目标的邻接网络,在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。
Jun, 2020