- 在线强化学习中的规划的新视角
本文提出了一种新的基于模型的强化学习方法,使用背景规划来混合(近似)动态规划和无模型更新,以解决学习模型的不准确性和生成无效状态的问题,并通过约束背景规划到一组(抽象的)子目标和只学习局部的、以子目标为条件的模型来提高计算效率,自然地包含时 - 深入探索层级世界模型在强化学习中的限制
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不 - AAAI学习具有不确定性感知的时间延续动作
通过使用 ensemble 方法,我们提出了一种名为 Uncertainty-aware Temporal Extension(UTE)的新算法,它能够准确测量在行为扩展期间的不确定性,这使得策略可以在探索和不确定性规避之间做出有针对性的选 - ICLR协调空间和时间抽象以实现目标表征
通过引入空间和时间目标抽象的三层层次强化学习(HRL)算法提高目标表示性能,评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。
- 潜在扩散下的高效规划
该研究论文介绍了一种统一的框架,利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划,通过考虑预训练的扩散模型进行能量引导抽样,通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能,并在高维 - PEAR: 用于增强分层强化学习的原语启用自适应重新标记
本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法,称为 primitive enabled adaptive relabeling (P - IQL-TD-MPC:基于隐式 Q - 学习的分层模型预测控制
本文提出了一种基于模型的强化学习算法 IQL-TD-MPC,并通过此算法构建一个层级架构,使用规划生成的意图嵌入来增强任何现成的离线强化学习算法,从而显着提高在 D4RL 基准任务中的性能。
- 高效连续控制的时间分层架构
我们提出了一种时间分层框架 (TLA),以最小化能量消耗进行时间自适应控制。 TLAlayer 了一个快速和一个慢速策略以实现时间抽象,使每层专注于不同的时间尺度。我们的设计借鉴了人脑的节能机制,根据环境要求在不同的时间尺度下执行动作。我们 - 有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析
本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项 - CRISP: 层次强化学习中课程引导的基本原语子目标预测
本文提出了一种新的分层算法,通过生成可实现的子目标的课程来训练逐层递进的策略,通过在少量专家演示中使用基础解析方法进行数据重标注,得到了可以用于多数机器人控制任务的适用的逐层递进的强化学习算法,实验结果表明,课程学习可以显著提高分层强化学习 - 思维链预测控制
该论文研究了从示范中学习复杂低级控制任务的泛化策略学习,并提出一种新颖有效的方法,将时间抽象和具有规划能力的层次强化学习与模仿学习相结合,基于决策基础模型,利用可扩展的演示来学习具有一致性和结构化的长期行动指导,从而提高了低级操纵任务的性能 - 自适应、分布式和连续控制的时间分层架构
该研究提出可适应时间分布式控制的分层式体系结构,该设计模仿人脑的架构,在不同时间尺度上执行动作以适应环境的需求,通过两种不同的算法进行训练,并在连续控制任务中证明比现有方法具有优势。
- DHRL: 一种基于图的长时间和稀疏层次强化学习方法
本文提出了使用图形解耦合高层次和低层次策略视野的分层强化学习方法,该方法可以使高层次策略的操作间隔更加灵活,从而实现更长的时域抽象和更快的训练。与现有的分层强化学习算法相比,该方法在数据效率方面表现更好,在典型的分层强化学习环境中实现了复杂 - 时间扩展继承表示
本文介绍一种称为 t-SR 的时间上扩展的后继表示法,它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态,从而减少了控制所需的决策数量,同时学习到时间上扩展的动作序列的时域,优于价值基、非模型强化学习方法。
- 注意力选项评论家
本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和 - IJCAI具备继承特性的选项传输和 SMDP 抽象
本文研究了强化学习中的联合时间和状态抽象,其中采用继承特征的新颖抽象机制,使得抽象选项可以在不同环境下转移并进行有效规划。
- 时钟变分自编码器
介绍了 Clockwork VAE (CW-VAE) 作为视频预测模型,通过利用层次潜变量和时间抽象来处理长期依赖关系,对多个视频预测数据集进行了测试,并在预测远期的效果方面超过了现有的顶尖视频预测模型,同时还提出了一个长期视频预测的 Mi - ICML数据效率高的事后无偏策略选项学习
研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项(HO2),并证明其在现有基准测试中表现优异,结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束,特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。
- AAAI兴趣选项:基于兴趣函数的时间抽象
本文提供了一种通用的服务集开放框架,用于学习行为控制的初始集,利用定义在 Option 之上的利益函数,推导了一个基于梯度的利益函数学习算法,从而导致了一种新的利益 - 选项批评家体系结构,支持学习可解释且可重用的时间抽象。
- 时序差异变分自编码器
本文提出了 TD-VAE 这个生成式序列模型,它学习了几步之后状态的显式信念,可以直接展开而无需单步转换,用于复杂环境中的计划和行为的模拟。