从游戏中学习潜在计划

Mar, 2019

Learning Latent Plans from Play

Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson...

TL;DR该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习，结合自我监督控制和多样性玩耍数据集，实现了对环境中所有可用行为的连续学习，取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现，同时表现出更强的抗干扰能力和重试成功的行为。

Abstract

Acquiring a diverse repertoire of general-purpose skills remains an open challenge for robotics. In this work, we propose self-supervising control on top of human teleoperated play data as a way to scale up

robotics skill learning self-supervised control play data latent plan space

发现论文，激发创造

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

PlayFusion: 通过语言标注游戏实践实现技能获得

通过学习无结构和未经整理的数据来生成语言和视觉方面的方法成为了主流。本论文研究了从带有事后语言标签的无结构游戏数据中学习目标导向技能策略的问题，并借助扩散模型的进展，从无结构游戏数据中提取机器人技能。

Dec, 2023

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

指导技能学习和抽象以实现长远操纵

LEAGUE 是一种集成任务计划和技能学习框架，利用任务计划器的符号界面指导基于深度强化学习的技能学习，同时创建抽象状态空间以实现技能重用，并可以在任务计划系统内学习操作技能，不断提高其能力并解决更多任务。

Oct, 2022

使用时间跳连的自监督视觉规划

该研究旨在通过直接进行视频预测来实现自监督机器人学习，通过引入具有时间跳转连接的视频预测模型和新颖的规划准则和行动空间公式，研究表明该模型在机器人操作中具有很好的性能。

Oct, 2017

基于自监督对抗模仿无标签混合动作的多用途技能控制

本文提出了一种协作对抗式学习方法，用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度，获得可控技能集的单一多才策略。实验结果表明，借助生成式对抗模仿学习框架中的无监督技能发现，出现了成功完成任务的新颖有用技能。最后，在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略，并呈现出编码在演示中的各种不同技能的忠实复制。

Sep, 2022

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

加入技能发现

语言驱动的机器人技能研究中，通过利用大规模语言模型的高级推理能力应用于低级机器人控制，继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架，通过提供的场景描述和机器人配置生成任务提案，并逐步获得新的技能来完成任务，使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度，从而使机器人能够高效地提出和完成高级任务。

May, 2024

通过自我对抗学习用于层次强化学习的目标嵌入

本研究旨在应对层次化强化学习中确定合适的低级策略的挑战，提出基于不对称自我对弈的无监督学习方案，自动学习环境中子目标的好的表示和可执行的低级策略，从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明，该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。

Nov, 2018