从游戏到政策：基于未筛选机器人数据的条件行为生成

Oct, 2022

从游戏到政策：基于未筛选机器人数据的条件行为生成

From Play to Policy: Conditional Behavior Generation from Uncurated Robot Data

Zichen Jeff Cui, Yibin Wang, Nur Muhammad Mahi Shafiullah, Lerrel Pinto

TL;DR本文提出了一种名为 C-BeT 的新方法，结合了 Behavior Transformer 多模态生成能力和条件生成模型技术，实现从多模态、嘈杂数据中提取有用、任务中心的行为，取得了有益的效果，而该方法也是第一个实现从无标签、零奖励信息的玩耍数据里纯学习真实世界机器人有用任务行为的方法。

Abstract

While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play d

robotics generative modeling multi-modal data behavior transformer conditional learning

发现论文，激发创造

行为变换器：一石多鸟地克隆 $k$ 种模式

本文介绍了一种名为 BeT 的新技术，该技术利用多模式建模，并结合动作离散化技术和多任务操作校正，在离线强化学习和行为克隆方面表现出色。我们在各种机器人操作和自驾行为数据集上进行了实验评估，并显示出 BeT 显着改善了解决示范任务的先前最先进工作，同时捕获了预先收集的数据集中存在的主要模式。

Jun, 2022

潜在行为生成

通过将连续行为离散化为层次化矢量量化模块，VQ-BeT 是一种能够处理多模态行为预测、条件生成和部分观测的行为生成通用模型，其在七个环境中取得了比 BeT 和 Diffusion Policies 等现有模型更好的效果，并且加速了推断速度 5 倍以上。

Mar, 2024

PlayFusion: 通过语言标注游戏实践实现技能获得

通过学习无结构和未经整理的数据来生成语言和视觉方面的方法成为了主流。本论文研究了从带有事后语言标签的无结构游戏数据中学习目标导向技能策略的问题，并借助扩散模型的进展，从无结构游戏数据中提取机器人技能。

Dec, 2023

Few-Shot Imitation Learning 通过查询未标记的数据集进行行为检索

本研究通过利用少量下游专家数据有针对性地获取有关未标记数据集的信息，设计了一种新颖的机器人学习方法以有效地学习视觉运动技能。该方法效果显著，在通过视频实景测试和实际机器人操作中超越了以往更为复杂的目标设定方法 20% 的表现

Apr, 2023

语言条件下的机器人模仿学习对非结构化数据的影响因素

本研究旨在从自然语言文本中获取信息，进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题，来提出一种有效的机器人控制学习方法，该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时，我们使用所提出的方法，成功地在机器人 CALVIN 基准测试中，超越了现有研究成果。

Apr, 2022

机器人与非固定人员之间的有效协作行为变压器

提出了一个基于元学习框架的行为转换方法（BeTrans），实现了机器人代理与具有非稳态行为的人类代理的有效协作和快速适应，解决了人机协作中由于人类行为变化引起的非稳定性问题。

Jul, 2023

从人类指令生成行为树的意图理解与最优行为规划的整合

本研究提出了一个两阶段框架来生成行为树（BT），首先使用大型语言模型（LLMs）从高层指示中解释目标，然后通过最优行为树扩展算法（OBTEA）构建高效的目标特定行为树，在服务机器人中的实验证实了 LLMs 在产生语法正确和准确解释目标方面的熟练程度，证明了 OBTEA 在各项指标上相对于基线 BT 扩展算法的优越性，并最终确认了我们框架的实际部署能力。

May, 2024

自我监督行为复制的变压器是文本游戏的路径爬虫

我们介绍了一种自监督行为克隆变压器，用于文本游戏，这是虚拟环境中的多步推理的具有挑战性的基准。通过自动生成训练数据的方式，我们的方法能够在三个基准文本游戏中实现约 90％的监督系统性能。

Dec, 2023

BeTAIL: 人工赛车游戏中基于行为转换的对抗模仿学习

BeTAIL 是一种结合行为转换（BeT）和在线对抗仿真学习（AIL）的方法，用于建模人类专家的顺序决策流程并纠正动态环境状态的变化，从而改善赛车性能和稳定性。

Feb, 2024

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016