TACO：通用双手工具-动作-对象理解的基准评估

Jan, 2024

TACO：通用双手工具-动作-对象理解的基准评估

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li...

TL;DR通过构建TACO数据集，该研究解决了现有技术方法对于处理单个手和物体的手-物体操作分析和合成的局限性，并通过三个可推广的手-物体交互任务（组合动作识别、可推广的手-物体运动预测和合作抓取合成）来提供广泛的研究领域，从而为推进可推广的手-物体运动分析和合成研究提供了新的见解、挑战和机遇。

Abstract

Humans commonly work with multiple objects in daily life and can intuitively transfer manipulation skills to novel objects by understanding object functional regularities. However, existing technical approaches for analyzing and synthesizing hand-object manipulation are mostly limited to handling a single hand and object due to the lack of data support. To a

发现论文，激发创造

GRAB:一个全身人类抓取物体的数据集

该研究通过收集一个新的名为GRAB的数据集，包含10个零件与51个日常物品的互动，详细描述了人类整体抓握物品的过程。通过这个数据集，研究者运用生成式网络训练预测人类手部抓握姿态的模型，以帮助更好地理解人体与物品的互动过程。

Aug, 2020

HANDAL: 真实世界中可操作对象类别的数据集，包含姿势注释、可用性和重建

我们介绍了HANDAL数据集，用于类别级别的物体姿态估计和可用性预测。与以前的数据集不同，我们的数据集专注于适合机器人操纵的具有适当大小和形状的可操作物体，如钳子、器具和螺丝刀。我们的注释过程简化，只需要一台现成摄像机和半自动处理，可以产生高质量的三维注释而无需众包。该数据集由来自212个真实世界物体的17个类别的2.2k个视频的308k个带注释的图像帧组成。我们专注于硬件和厨房工具物体，以促进在机器人执行与简单推动或不加区别握取之外的实际场景中与环境进行交互的研究。我们概述了我们的数据集在6自由度类别级别姿态+尺度估计和相关任务中的有用性。我们还提供了所有物体的三维重建网格，并概述了需要解决的一些瓶颈，以推动收集像这样的数据集的普及化。

Aug, 2023

GRIP: 使用潜在一致性和空间线索生成交互姿态

通过在计算机图形学、计算机视觉和混合现实等应用中建模真实的手物体相互作用，本研究引入了一种名为GRIP的基于学习的方法，从而综合生成符合逻辑的手的运动。通过引入一种新的方法来保证运动的时间一致性并生成一致的交互动作，GRIP生成了精确的手部姿势，避免手与物体的穿透，实验证明其优于基准方法，并且适用于不同动作捕捉数据集中的不可见物体和动作。

Aug, 2023

AffordPose：一个大规模手-物体互动的数据集，其中包括基于功能的手势姿势

本研究提出了AffordPose，一个基于部件级作用标签的大规模手-物交互数据集，揭示了手中心作用对手势姿势的详细排列影响，同时呈现一定程度的多样性。通过参数统计和接触计算，综合数据分析显示了各项作用对手-物交互的共同特征和多样性。我们还进行了手-物作用理解和作用导向手-物交互生成任务的实验，验证了我们的数据集在学习精细手-物交互方面的有效性。

Sep, 2023

DiffH2O: 通过扩散实现从文本描述到手物体交互的合成

通过DiffH2O方法，从提供的文本提示和物体几何形状中合成真实的、单手或双手的物体交互，该方法通过手抓阶段和基于文本的交互阶段以及两种不同的引导方案实现了对生成动作的更多控制。

Mar, 2024

OAKINK2：一个复杂任务完成下的双手物体操作数据集

OAKINK2是一个用于复杂日常活动的双手物体操作任务数据集，该数据集通过三个抽象层次组织操作任务，包括作用力、基本任务和复杂任务，并提供人体、手和各种交互对象的多视图图像流和精确姿势注释。基于OAKINK2的三级抽象，研究人员提出了任务导向的复杂任务完成（CTC）框架，该框架使用大型语言模型将复杂任务目标分解为基本任务序列，并开发了动作实现模型以生成每个基本任务的双手运动。

Mar, 2024

GraspXL: 大规模生成多样化物体的抓取动作

我们提出了一种无需 3D 手物体交互数据的策略学习框架 GraspXL，通过统一多种运动目标、多样化的物体形状和灵巧的手形态，可以可靠地合成多样化的抓取运动，且能够在超过500,000个未知物体中的82.2%上成功。

Mar, 2024

GEARS: 局部几何感知的手-物体互动合成

生成逼真的手部动作序列与物体的交互在数字人方面越来越受到关注，之前的工作已经证明了利用基于占据或基于距离的虚拟传感器来提取手物体交互特征的有效性，但是这些方法在物体类别、形状和大小方面的泛化能力有限。为了解决这个挑战，我们引入了一种新颖的以关节为中心的传感器，用于推理潜在交互区域附近的局部物体几何。该传感器查询每个手关节附近的物体表面点。我们通过将点从全局坐标系转换为手部模板坐标系，并使用共享模块处理每个独立关节的传感器特征来减少学习复杂性。然后，我们使用时空转换网络捕捉不同维度中关节之间的相关性。此外，我们设计了简单的启发式规则，以扩充有限的训练序列，增加丰富的静态手抓取样本。这样在训练过程中观察到更广泛的抓取类型，从而增强了我们模型的泛化能力。我们在两个公开数据集GRAB和InterCap上进行评估，结果表明我们的方法在定量和感知上都优于基线模型。

Apr, 2024

全抓取分类法与动态的稠密手-物体抓取网络

本研究针对现有3D手-物体互动数据集在数据量、交互场景变异性和标注质量等方面的不足，提出了新的手-物体互动训练数据集HOGraspNet。该数据集全方位捕捉抓取分类，支持复杂手部活动的表现，提供了多样的手型和详尽的3D标注，揭示出抓取类型和物体类别对表现的影响，有助于学习通用的3D手-物体互动模型。

Sep, 2024

儿童游戏手：野外手部操作数据集

本研究解决了第三人称视角下手物体交互（HOI）数据集稀缺的问题，提出了ChildPlay-Hand数据集，包含手部标注、未受控环境中的自然交互视频，以及联合建模操作和注视的标签。研究发现，该数据集为建模野外HOI提供了具有挑战性的基准，包括手中物体检测和操作阶段的细化任务。

Sep, 2024