一次性几何驱动的交互张量用于自我中心作用感知检测
通过自我监督方法,以及使用相对方向和近距离的人物和物体点之间的关系定义的新型能力表征,我们提出了一种创新的方法来生成三维能力示例,展示了我们方法和表征的有效性。
Jan, 2024
利用深度隐式函数的多任务学习、共享表征,联合学习抓握可行性和三维重建任务,在清理杂物方面实现了优于基线方法 10% 的抓握成功率。
Apr, 2021
通过结合物体层面的可行先验和环境约束,我们提出了一个环境感知的可行性框架,该框架能够在考虑环境约束的情况下学习可行性,对于包含单个遮挡物和复杂遮挡物组合的场景具有良好的泛化效果。
Sep, 2023
本文提出一种基于 Transformer 的模型以实现机器的多物体理解,物体控制及 3D 场景探索,主要方法为预测物体的 3D 位置,物理属性及可访问性,通过自己收集和验证数据集来证明该模型对网络视频,比如第一人称视角视频和室内图像产生较好泛化能力。
May, 2023
理解以自我为中心的人 - 物互动是人类中心感知的一个基本方面,为增强现实 / 虚拟现实和具身人工智能等应用提供支持。本研究提出了 EgoChoir 方法,通过协调视觉外观、头部运动和 3D 对象的信息来挖掘物体互动概念和人类意图,并在以自我为中心的视频中推断 3D 人体接触和物体可供性,从而解决以自我为中心的视图中的人 - 物互动问题。
May, 2024
通过使用基于视觉的场景几何形状信息,我们提出了一种用于改善人体姿态估计的新颖机制:多层深度图。我们展示了这种方法可以提高 3D 姿态估计的精度。
May, 2019
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即使在杂乱无章的场景中也能学习到高度 V-measure 的对象功能群簇,并且能够有效地处理对象遮挡,并且不强制施加任何对象或场景约束。
Mar, 2023
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022