基于虚拟现实的生成逼真合成数据用于训练手 - 物体追踪模型
通过使用合成数据和域适应技术,我们在自我中心视觉领域研究了提高手物交互检测的有效性。我们介绍了一个模拟器,能够自动生成带有手物接触状态、边界框和像素级分割掩码的合成图像。通过对三个自我中心数据集(VISOR,EgoHOS,ENIGMA-51)的全面实验和比较分析,我们证明了合成数据和域适应技术的使用可以在只对一小部分真实数据进行标注的情况下,实现与传统监督方法相当的性能。当使用由真实目标环境和对象的 3D 模型生成的领域内合成数据进行测试时,我们最好的模型在性能上与仅基于标记真实数据的标准完全监督方法相比表现出持续的改进。我们的研究还为自我中心手物交互检测(HOI-Synth)设定了一个新的域适应基准,并提供了鼓励该领域进行此挑战性任务的基准结果。我们在以下链接上发布了生成的数据、代码和模拟器:this https URL
Dec, 2023
本文针对工业环境下自我中心的人物 - 物体交互(EHOI)检测问题,提出了一种生成与注释合成图像数据的流程和工具,并发布了包含多种注释的 EgoISM-HOI 数据集。利用合成的 EHOI 数据,我们设计了一种新的方法,在 RGB 图像上预测和结合多种信号以检测 EHOI,并表明预先训练所提出的方法的性能在真实世界的数据上具有显著的提高。同时,我们公开了数据集、源代码和预训练模型,以支持该领域的研究。
Jun, 2023
利用 HOIDiffusion 方法生成了逼真且多样化的三维手物体交互数据,并将其用于学习 6D 物体位姿估计,提高感知系统的效果。
Mar, 2024
通过训练具有条件生成空间的扩散模型,合成多样的内容感知条件,并有目的地抽样该空间来合成有效的数据样本,实现增加数据多样性并提升三维手部网格重建性能。
Mar, 2024
通过引入适合训练机器人的合成数据,我们提出了一个能够生成逼真人类抓取动作的框架,通过对合成数据的纯训练,证明了我们的方法在模拟环境和真实系统中与依赖真实人类动作数据的最先进方法相媲美,并且能够扩展到更多未知物体和人类动作的大规模评估。
Nov, 2023
为了提高手部姿势估计的准确性,研究提出了一个大规模的合成数据集 RenderIH,其中包含 100 万张具有不同背景、视角和手部纹理的逼真照片。为了生成自然和多样化的交互姿势,提出了一种新的姿势优化算法。而用于姿势估计的基于 Transformer 的模型 TransHand 则能够利用交互手部之间的相关性,并验证 RenderIH 在改善结果方面的有效性。经过实验证明,使用该合成数据集进行预训练可以显著将误差从 6.76mm 降至 5.79mm,并且 TransHand 在性能上超越了其他方法。
Sep, 2023
D3D-HOI 是一种包含具有三维物体姿态、形状和部件运动的人 - 物交互的单目视频的数据集,其对各种现实世界场景和摄像机视角捕获的常见关节对象进行了表示,可用于评估收缩的对象质量和建立对该挑战性任务的基准。
Aug, 2021
本研究提出了一种合成数据生成方法,结合小规模真实数据集,通过生成的合成场景数据和深度信息,训练出在物体识别、姿态估计和图像分割等方面表现优越的机器人抓取算法。
Jan, 2024
本文探讨了使用合成图像训练最先进的对象检测器,特别是针对对象实例检测。我们在实际环境的图像中将纹理对象模型的 2D 图像叠加在一起,以便在各种位置和比例上进行训练。通过这些实验,我们证明了利用现有的对象模型仓库为新对象训练检测器的新机会。
Feb, 2017
我们研究了在视频中精确交换物体的问题,重点关注与手交互的物体,给定一个用户提供的参考物体图像。我们提出了 HOI-Swap,一种基于扩散的视频编辑框架,通过自我监督的训练方式进行训练。该框架具有两个阶段,第一个阶段专注于单帧中的物体交换,具备 HOI 意识;模型根据物体属性的变化来调整交互模式,如手的抓取。第二阶段将单帧编辑扩展到整个序列中;我们通过对样本的运动点进行变形,并通过变形序列来生成视频。综合定性和定量评估表明,HOI-Swap 显著优于现有方法,能够提供具有逼真 HOI 的高质量视频编辑。
Jun, 2024