本文提出了一种基于数据驱动的建模方法,利用深度生成模型学习目标定向的物体操作,采用视觉规划和视觉跟踪控制解决目标检测问题。
May, 2019
我们学习到一种能够关联可达状态的表示方法,通过学习多步逆动力学获得一个潜在表示,并将其转换为在 l2 空间中关联可达状态,这种方法可以显著提高采样效率,并实现层次化规划。
Nov, 2023
本文提供了一种新框架 Recplan,用于从部分观察到的原始图像轨迹中学习转换模型。通过考虑轨迹中的前面和后面的图像,我们学习原始观察的潜在状态表示,然后基于这样的表示构建转换模型。此外,我们提出了一种基于神经网络的方法,学习估计朝着给定目标观察的距离的启发式模型。基于学习的转换模型和启发式模型,我们实现了一个图像的经典规划器,并在实证中展示了我们的方法比在具有不完整观测的环境中学习视觉规划模型的最新方法更有效。
Nov, 2022
本研究提出了 PlanGAN,一种使用模型的算法,专门针对具有稀疏奖励环境的多目标任务进行求解,该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。
Jun, 2020
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
通过曝光由动态因果图表示的知识,以增加神经代理的可解释性并提供更好的解释能力,我们设计了一种自解释的模仿学习框架,能够学习动态因果图以理解模仿学习的决策过程并保持高预测准确性。
Sep, 2023
介绍了一种学习鲁棒视觉表示的框架,该框架能够推广到新的视点、背景和场景环境,并利用干扰因素以制造人为干预特征,从而学习更加符合基础因果关系的鲁棒表示方法。实验证明,该方法提升了多个需要超出训练分布的数据集的性能,在从 ImageNet 到 ObjectNet 数据集进行无分布推广时展现出最先进的性能。
Dec, 2020
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
本文提出了一种基于强化学习和模仿学习的视觉语义计划解决方案,使用后继表示来实现跨任务的泛化,用于预测将动态环境从初始状态转换到目标状态的操作序列,在 THOR 环境中实现了近乎最优的结果。
May, 2017
本文提出 Dual Dynamics Networks(DDN)框架来解决学习结构化的、可规划的状态和动作空间的技术挑战,以应对复杂任务规划的问题;DDN 框架在真实世界的教学视频上展示了更好的规划性能。
Jul, 2019