学习二维不变可供性知识以实现三维可供性定位
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本研究提出了一种从视外的人-物互动中学习物体感知知识并将其转移到自我中心图像的任务,通过保留互动关联增强感知机会区域,实现了交叉视角的感知知识迁移框架,并构建了一个名为AGD20K的感知知识转化数据集。
Aug, 2022
本文介绍了一种名为Open-Vocabulary Affordance Detection (OpenAD)的方法,能够在三维点云中检测出大量未被预定义的功能,无需单一标注实例即可实现零-shot检测,并成功利用功能语义关系提高检测效率,在多种场景中均表现出优异的性能,具有实际应用价值。
Mar, 2023
本文提出一种名为LOCATE的框架,采用图像级别的适应性和对象标签对交互区域进行特征嵌入,并将其聚合为人类、对象部分和背景的紧凑原型之一,以指导功能接地的弱监督学习。对于新物体,实验证明我们的方法在训练图像和测试图像上性能都很好。
Mar, 2023
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即使在杂乱无章的场景中也能学习到高度 V-measure 的对象功能群簇,并且能够有效地处理对象遮挡,并且不强制施加任何对象或场景约束。
Mar, 2023
本研究提出了AffordPose,一个基于部件级作用标签的大规模手-物交互数据集,揭示了手中心作用对手势姿势的详细排列影响,同时呈现一定程度的多样性。通过参数统计和接触计算,综合数据分析显示了各项作用对手-物交互的共同特征和多样性。我们还进行了手-物作用理解和作用导向手-物交互生成任务的实验,验证了我们的数据集在学习精细手-物交互方面的有效性。
Sep, 2023
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过自我监督方法,以及使用相对方向和近距离的人物和物体点之间的关系定义的新型能力表征,我们提出了一种创新的方法来生成三维能力示例,展示了我们方法和表征的有效性。
Jan, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024