从人类视频中构建结构化世界模型

Aug, 2023

从人类视频中构建结构化世界模型

Structured World Models from Human Videos

Russell Mendonca, Shikhar Bahl, Deepak Pathak

TL;DR我们提出了一种方法，通过仅利用许多不同设置的少量实际交互轨迹，使机器人能够有效地学习操纵技能，并由此建立了一个基于人的视频的结构化行为空间，从而使不同的机器人能够在复杂环境下学习各种操纵技能。

Abstract

We tackle the problem of learning complex, general behaviors directly in the real world. We propose an approach for robots to efficiently learn manipulation skills using only a handful of real-world interaction t

learning manipulation skills real-world interaction human video data robot

发现论文，激发创造

以人类视频中的操作性作为机器人的通用表现形式

本论文探讨了如何通过利用互联网视频中的人类行为，训练一个可视化驱动的视觉能力模型，以此实现机器人在现实环境中的复杂任务执行。我们将该模型与四个机器人学习范式无缝连接，并在 4 个现实世界环境、超过 10 种不同任务和 2 个机器人平台中展示了其效力。

Apr, 2023

通过观察学习：机器人操作的基于视频的学习方法综述

机器人通过观察大规模人类视频学习可以增强对机器人操纵的泛化性和样本效率。

Feb, 2024

通过翻译人类交互计划实现推广的零射击操作

我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能，采用分解方法从人类视频数据中学习人类如何完成期望任务，并将其转化为机器人的行为，从而实现零样本通用操作。

Dec, 2023

学习人机交互的社交意涵

本文提出了一种从人体活动视频中学习社交效应的机器人学习方法，该方法基于生成模型和马尔科夫链蒙特卡罗算法自动发现从 RGB-D 视频中的交互作用，让机器人能够自然地复制这些交互作用的完整体运动。

Apr, 2016

利用单个人类视频的基于视觉的开放世界物体图形操作

通过从单个人类视频中提取以对象为中心的操纵计划并推导出条件为提取计划的策略，我们提出了一种以对象为中心的方法，为机器人学习基于视觉的操纵技能提供支持。我们的方法允许机器人从 iPad 等日常移动设备捕获的视频中学习，并将策略推广到具有不同视觉背景、摄像机角度、空间布局和新颖对象实例的部署环境中。通过对短程和长程任务进行系统评估，我们展示了 ORION 在从单个人类视频中学习开放世界中的有效性。

May, 2024

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

利用人类视频在现实世界中学习织物操作

本文探讨了如何通过观察人类直接收集操作布料的示范，利用一些收集到的示范，我们展示了如何学习并在实际机器人上部署拾取和放置策略。

Nov, 2022

分层世界模型作为视觉全身人形控制器

基于强化学习的高度数据驱动方法用于视觉全身人形控制，通过层级世界模型生成指令以执行，实现了在模拟 56 自由度人形机器人的 8 个任务上高性能控制策略的合成。

May, 2024

野外场景下人机模仿

提出了一种名为 WHIRL 的算法，该算法采取第三人称的视角从人类被动、非结构化的数据中提取出先验，并使用其初始化代理的策略，同时引入了有效的现实世界策略学习方案和探索方法，能在真实环境下成功地学习人类模仿机器人，并完成 20 种不同的操作任务。

Jul, 2022

人机合作：通过眼手协同人类演示学习可推广的机器人操作

本研究旨在利用标注不足的人类视频示范来改进基于视觉的机器人操作学习数据，通过引入图像遮蔽的方法，提高眼手相机机器人操作策略的成功率达 58％。

Jul, 2023