通过手法控制世界

Aug, 2024

Controlling the World by Sleight of Hand

Sruthi Sudhakar, Ruoshi Liu, Basile Van Hoorick, Carl Vondrick, Richard Zemel

TL;DR本研究解决了当前生成模型在行动条件下无法进行物体操作的问题，通过学习人手与物体交互的无标签视频，提出了一种新的作用条件生成模型CosHand。研究表明，该模型能够准确预测手与物体交互的效果，并且对未知物体和环境具有很强的泛化能力，具备广泛的应用潜力，尤其在机器人领域中表现出色。

Abstract

Humans naturally build mental models of object interactions and dynamics, allowing them to imagine how their surroundings will change if they take a certain action. While Generative Models today have shown impressive results on generating/editing images unconditionally or conditioned o

发现论文，激发创造

通过第一人称视频中的接触表示预测行为

本研究以手与物体的接触与断开作为行为结构的中心，从这个角度出发探究了人类视觉对行为的理解方式，并在此基础上提出了依据行为接触建模的方法，并为此设计了一套行为预测与研究框架，该框架的使用在第四次EPIC Kitchens 行为预测挑战赛中达到了前沿水平。

Feb, 2021

从人类视频中构建结构化世界模型

我们提出了一种方法，通过仅利用许多不同设置的少量实际交互轨迹，使机器人能够有效地学习操纵技能，并由此建立了一个基于人的视频的结构化行为空间，从而使不同的机器人能够在复杂环境下学习各种操纵技能。

Aug, 2023

GRIP: 使用潜在一致性和空间线索生成交互姿态

通过在计算机图形学、计算机视觉和混合现实等应用中建模真实的手物体相互作用，本研究引入了一种名为GRIP的基于学习的方法，从而综合生成符合逻辑的手的运动。通过引入一种新的方法来保证运动的时间一致性并生成一致的交互动作，GRIP生成了精确的手部姿势，避免手与物体的穿透，实验证明其优于基准方法，并且适用于不同动作捕捉数据集中的不可见物体和动作。

Aug, 2023

通过翻译人类交互计划实现推广的零射击操作

我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能，采用分解方法从人类视频数据中学习人类如何完成期望任务，并将其转化为机器人的行为，从而实现零样本通用操作。

Dec, 2023

HandDiffuse: 通过扩散模型生成的双手交互控制器

提出了一个新的数据集HandDiffuse12.5M，它是一个包含强烈的双手互动时间序列的数据集，用于可控的互动手势生成；通过扩散模型和设计不同控制器的两种运动表示方法，进一步提出了强基准方法HandDiffuse；实验证明，该方法在运动生成方面优于现有技术，同时可用于其他数据集的数据增强。

Dec, 2023

帮助扩散模型：改进条件人类图像生成的两阶段方法

我们引入了一种新颖的姿势条件的人体图像生成方法，将生成过程分为两个阶段：手的生成和在手周围绘制身体。我们将手生成器训练在多任务设置中，以产生手图像及其相应的分割掩模，并将训练后的模型用于生成的第一阶段。然后，在第二阶段中使用改进的ControlNet模型来绘制生成的手周围的身体，产生最终的结果。我们引入了一种新颖的混合技术，在第二阶段中保留手部细节，以一种连贯的方式结合两个阶段的结果。实验评估证明了我们提出的方法在姿势准确性和图像质量上优于现有技术，在HaGRID数据集上得到验证。我们的方法不仅提高了生成手部的质量，还提供了对手势的改进控制，推进了姿势条件的人体图像生成的能力。

Mar, 2024

InterHandGen: 基于级联逆向扩散的双手交互生成

我们提出了InterHandGen，这是一个学习两只手相互作用生成先验的新框架。通过从我们的模型进行抽样，可以产生合理且多样化的双手形状，可以与或没有对象进行近距离交互。我们的先验可以整合到任何优化或学习方法中，以减少在不适定设置中的歧义。我们的关键观察是，直接建模多个实例的联合分布由于其组合性质而具有很高的学习复杂度。因此，我们建议将联合分布的建模分解为对事实单独实例分布的无条件建模和条件建模。我们介绍了一个扩散模型，它通过条件丢弃来学习单手分布的无条件和有条件性。在抽样方面，我们结合了防穿透和无分类器指导，以实现合理的生成。此外，我们建立了严格的两只手合成评估协议，在可信度和多样性方面，我们的方法明显优于基准生成模型。我们还证明，我们的扩散先验可以提高从野外单目图像中重建两只手的性能，达到新的最高准确度。

Mar, 2024

G-HOP: 交互重建和抓取合成的生成式手-物体先验模型

我们提出了G-HOP，一种基于去噪扩散的生成先验，用于手-物体交互，可以对3D物体和人手进行建模，并条件于物体类别。我们通过使用骨骼距离场来表示人手，从而得到与物体（潜在）有向距离场对齐的表示，学习一个可以捕捉这种联合分布的3D空间扩散模型。我们展示了这个手-物体先验可以作为通用指导，在交互裁剪的重建和人手抓取合成等其他任务中发挥作用。我们相信，我们的模型通过汇集155个类别的七个多样化的现实世界交互数据集进行训练，提供了一种联合生成手和物体的初次尝试。我们的实证评估表明，在基于视频的重建和人手抓取合成方面，这个联合先验具有超越当前任务特定基准的优势。

Apr, 2024

Dreamitate: 通过视频生成进行真实世界视觉运动策略学习

在这篇论文中，我们提出了一种视觉-运动策略学习框架，该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段，我们生成了一个以新颖场景的图像为条件的任务执行示例，并直接使用这个合成的执行结果来控制机器人。我们的主要观点是，使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法，并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。

Jun, 2024

视频中的手-物体交互预训练

本研究解决了机器学习在机器人操作中的普适性和适应性问题，提出了一种利用现实视频生成传感器-运动机器人轨迹的新方法。通过在共享3D空间中提升人手和被操作物体，研究显示对基于这一生成模型的政策进行微调，可以实现高效的样本适应，同时提高适用性和鲁棒性。

Sep, 2024