协调空间和时间抽象以实现目标表征
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
我们提出了一种通过紧密的表示来发现目标表示的发展机制,该机制可以将具有类似任务角色的环境状态集合抽象(即,分组在一起)。我们引入了一种 Feudal HRL 算法,该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法,结果表明所学到的表示是可解释的、可传递的,并且可以实现高效的学习。
Sep, 2023
Skipper 是一个受人类有意识规划启发的基于模型的强化学习代理,利用空间和时间抽象来在新情境中推广学到的技能,通过自动将任务分解为更小、更可管理的子任务来实现稀疏决策,并将计算集中在环境相关的部分。与现有的基于层次规划的方法相比,基于图的高层代理问题的定义和端到端学习的顶点和边的学习确保了性能保证,理论分析确定了我们的方法在何种情况下有帮助。通过以泛化为重点的实验验证,Skipper 在零样本泛化方面具有显著优势。
Sep, 2023
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
为了解决人类移动中的空间和时间因素对决策过程的影响,本研究引入了 “空间 - 时间诱导层次强化学习”(STI-HRL) 框架,以捕捉人类移动决策中空间和时间因素的相互作用。通过两个层次的决策过程,STI-HRL 通过专用的个体代理来解开空间和时间偏好,然后在高级层次集成这些考虑最终做出决策。在利用超图组织历史数据的基础上,我们提出了一个跨通道超图嵌入模块,用于学习表示状态以促进决策过程。我们在两个实际数据集上进行了广泛的实验,在各种性能指标上证实了 STI-HRL 方法在预测用户下次访问方面的优越性。
Dec, 2023
高层策略给出低层策略达到的子目标,在这篇论文中,我们提出了一种基于高斯过程的概率子目标表示方法,通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息,从而适应不确定性。同时,我们还提出了一种新的学习目标,以实现概率子目标表示和策略的同时学习。实验结果表明,我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准,并且我们的模型在不同任务之间转移低层策略具有良好的性能。
Jun, 2024
本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法,该方法可以使高层次策略的操作间隔更加灵活,从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比,该方法在数据效率方面表现更好,在典型的分层强化学习环境中实现了复杂任务的长期和复杂的运动和操作。
Oct, 2022
本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率,并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态,实验结果表明,我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。
May, 2021
技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的学习更具益处,使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究,并帮助强化学习从业者在何时如何使用技能上做出更好的决策。
Jun, 2024
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程 (ADP) 中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020