层次化先见之明:通过视觉子目标生成进行长时程任务的自监督学习
我们提出了一种基于视觉的分层规划算法,利用神经符号任务规划和基于低级运动产生的联合框架,以指定目标为条件。该算法使用两级场景图形式来表示操作场景,即几何场景图和符号场景图,并使用图形神经网络来为高层任务规划和低层动作生成处理这些场景图。我们在物理模拟和现实世界中的厨房储物任务中验证了我们的方法,并证明我们的方法比标准的搜索任务和运动规划器运行速度高四个数量级。
Dec, 2020
本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型,通过对输入帧进行编码,预测高级别的特征,再通过解码器生成预测图像,同时采用了对抗性损失以训练预测器,该方法可以进行 20 秒预测,并在 Human 3.6M 数据集上取得了更好的结果。
Jun, 2018
通过在空间和时间尺度上进行分层推理,我们提出使用多个专家基础模型联合解决长期目标任务的分层规划模型,通过语言、视觉和动作数据的训练,构建符号化的计划,并通过视觉 - 动作控制将计划转化为执行动作,以实现在新环境中做出有效决策。
Sep, 2023
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023
该研究旨在通过直接进行视频预测来实现自监督机器人学习,通过引入具有时间跳转连接的视频预测模型和新颖的规划准则和行动空间公式,研究表明该模型在机器人操作中具有很好的性能。
Oct, 2017
本研究旨在应对层次化强化学习中确定合适的低级策略的挑战,提出基于不对称自我对弈的无监督学习方案,自动学习环境中子目标的好的表示和可执行的低级策略,从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明,该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。
Nov, 2018