关键词goal-conditioned policies
搜索结果 - 15
- 多智能体基于时间对比学习的迁移学习
该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习,发现有意义的子目标。实验证明,该方法在多智能体协调任务 Overcooked 上能够提高样本效率,解决稀疏奖励和长期规划问题,并且相比 - 用非对称规范来近似最小行动距离
本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法,通过自我监督学习嵌入空间,使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同,我们的方法采用了非对称范数参数化,可以在具有固有不对称性的环境中准确近似最小 - 关系神经网络能解决哪些规划问题?
本论文通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系,揭示了策略学习中的规划问题有三类,同时证明了电路宽度和深度与物体数量和规划周期成正比,从而得出了设计策略学习神经网络的实用性。
- ICML离线交互数据的距离加权监督学习
该研究介绍了一个名为 DWSL 的距离加权监督学习方法,用于从线下数据中学习目标条件策略,通过加权行动以估计最短路径距离,能够在高维图像领域中超过先前的目标条件 IL 和 RL 算法的性能。
- 通过目标感知表示学习和自适应视野预测实现开放式多任务控制
研究学习目标条件无关策略在 Minecraft 中的应用,提出了 Goal-Sensitive Backbone (GSB) 策略和自适应视角预测模块用于解决任务状态多样性和非静态动力学带来的挑战,并在 20 个 Minecraft 任务上 - 离线学习目标条件策略:自监督奖励塑形
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们 - 使用大型预训练的语言、视觉和行为模型的机器人导航
LM-Nav 是一个基于预训练模型的系统,它可以在大型未注释数据集上进行训练,不需要任何细化或语言注释的机器人数据,通过预先训练的导航模型(ViNG),图像语言关联(CLIP)和语言建模(GPT-3),可以通过自然语言指令在复杂的户外环境中 - ICML自主探索与多目标随机最短路径的近最优算法
该研究重新审视了 Lim&Auer(2012)提出的增量自主探索问题,提出了一种新算法,并证明了该算法在控制状态数多项式增长时是几乎极小化的。
- 控制任务组合泛化的策略架构
该研究提出了一种基于任务实体组成结构的框架和适当的策略设计,旨在解决通过目标配置来规范控制、机器人和规划的任务,此策略运用 Deep Sets 和 Self Attention 等结构,在模拟机器人操作任务的训练中,成功率更高且泛化能力更强 - 通过想象视觉可供性学习新技能:我在这里能做什么?
本文旨在研究如何通过生成模型来让一个通用机器人学习视觉契合性的表征,以便于机器人可以在新环境中使用它的模型进行采样,进而进一步训练其策略从而达成其目标。这种做法可以被用于训练以原始图像输入为操作对象的目标编码策略,并可以通过我们提出的契合性 - 改进的 MDPs 增量自主探索的样本复杂度
DisCo 算法采用新颖的基于模型的方法,通过同时发现新的状态和提高计算目标策略的模型估计的准确性来达到对未知环境进行探索的目的,并在任何有成本限制的最短路径问题中返回一个接近于最优解的策略。
- 基于模型的离线规划
提出一种基于模型的离线学习算法 (MBOP),其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能,并能够创建零 - shot 目标条件策略。
- ICLR旋转不变运动的目标条件批量强化学习
提出一种新颖的方法,使用批量 RL 设置学习目标条件策略,通过使用非目标条件策略收集批量数据,利用数据增强生成不同方向下相同动作的轨迹,并使用编码器学习不变性,从而学习到可让智能体在任何方向上行走的目标条件策略。
- 基于目标条件策略的规划
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务 - 自监督学习距离函数用于目标条件强化学习
本文在使用子目标分解强化学习问题时,提出学习适当距离的方法以确定目标是否已实现,并就三种不同情境提出了解决方案,同时还提出了一个目标生成机制。