通过手法控制世界
本研究以手与物体的接触与断开作为行为结构的中心,从这个角度出发探究了人类视觉对行为的理解方式,并在此基础上提出了依据行为接触建模的方法,并为此设计了一套行为预测与研究框架,该框架的使用在第四次EPIC Kitchens 行为预测挑战赛中达到了前沿水平。
Feb, 2021
我们提出了一种方法,通过仅利用许多不同设置的少量实际交互轨迹,使机器人能够有效地学习操纵技能,并由此建立了一个基于人的视频的结构化行为空间,从而使不同的机器人能够在复杂环境下学习各种操纵技能。
Aug, 2023
通过在计算机图形学、计算机视觉和混合现实等应用中建模真实的手物体相互作用,本研究引入了一种名为GRIP的基于学习的方法,从而综合生成符合逻辑的手的运动。通过引入一种新的方法来保证运动的时间一致性并生成一致的交互动作,GRIP生成了精确的手部姿势,避免手与物体的穿透,实验证明其优于基准方法,并且适用于不同动作捕捉数据集中的不可见物体和动作。
Aug, 2023
我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能,采用分解方法从人类视频数据中学习人类如何完成期望任务,并将其转化为机器人的行为,从而实现零样本通用操作。
Dec, 2023
提出了一个新的数据集HandDiffuse12.5M,它是一个包含强烈的双手互动时间序列的数据集,用于可控的互动手势生成;通过扩散模型和设计不同控制器的两种运动表示方法,进一步提出了强基准方法HandDiffuse;实验证明,该方法在运动生成方面优于现有技术,同时可用于其他数据集的数据增强。
Dec, 2023
我们引入了一种新颖的姿势条件的人体图像生成方法,将生成过程分为两个阶段:手的生成和在手周围绘制身体。我们将手生成器训练在多任务设置中,以产生手图像及其相应的分割掩模,并将训练后的模型用于生成的第一阶段。然后,在第二阶段中使用改进的ControlNet模型来绘制生成的手周围的身体,产生最终的结果。我们引入了一种新颖的混合技术,在第二阶段中保留手部细节,以一种连贯的方式结合两个阶段的结果。实验评估证明了我们提出的方法在姿势准确性和图像质量上优于现有技术,在HaGRID数据集上得到验证。我们的方法不仅提高了生成手部的质量,还提供了对手势的改进控制,推进了姿势条件的人体图像生成的能力。
Mar, 2024
我们提出了InterHandGen,这是一个学习两只手相互作用生成先验的新框架。通过从我们的模型进行抽样,可以产生合理且多样化的双手形状,可以与或没有对象进行近距离交互。我们的先验可以整合到任何优化或学习方法中,以减少在不适定设置中的歧义。我们的关键观察是,直接建模多个实例的联合分布由于其组合性质而具有很高的学习复杂度。因此,我们建议将联合分布的建模分解为对事实单独实例分布的无条件建模和条件建模。我们介绍了一个扩散模型,它通过条件丢弃来学习单手分布的无条件和有条件性。在抽样方面,我们结合了防穿透和无分类器指导,以实现合理的生成。此外,我们建立了严格的两只手合成评估协议,在可信度和多样性方面,我们的方法明显优于基准生成模型。我们还证明,我们的扩散先验可以提高从野外单目图像中重建两只手的性能,达到新的最高准确度。
Mar, 2024
我们提出了G-HOP,一种基于去噪扩散的生成先验,用于手-物体交互,可以对3D物体和人手进行建模,并条件于物体类别。我们通过使用骨骼距离场来表示人手,从而得到与物体(潜在)有向距离场对齐的表示,学习一个可以捕捉这种联合分布的3D空间扩散模型。我们展示了这个手-物体先验可以作为通用指导,在交互裁剪的重建和人手抓取合成等其他任务中发挥作用。我们相信,我们的模型通过汇集155个类别的七个多样化的现实世界交互数据集进行训练,提供了一种联合生成手和物体的初次尝试。我们的实证评估表明,在基于视频的重建和人手抓取合成方面,这个联合先验具有超越当前任务特定基准的优势。
Apr, 2024
在这篇论文中,我们提出了一种视觉-运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
Jun, 2024
本研究解决了机器学习在机器人操作中的普适性和适应性问题,提出了一种利用现实视频生成传感器-运动机器人轨迹的新方法。通过在共享3D空间中提升人手和被操作物体,研究显示对基于这一生成模型的政策进行微调,可以实现高效的样本适应,同时提高适用性和鲁棒性。
Sep, 2024