LOCATE: 弱监督可支配定位与传输物体部件
通过从视频中直接学习人类物体交互 '热点' 的方法,我们的研究表明弱监督的热点可以与强监督的 affordance 方法竞争,并能够预测新对象类别的对象交互。
Dec, 2018
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
引入了一种可用于检测新物体的人 - 物互动以及识别物体能力的“可供性转移学习方法”,有效提高了对新物体的 HOI 检测表现,并能够通过已知关于物体能力的表示信息来推断新物体的能力,并在 HICO-DET 以及 HOI-COCO 两个数据集上取得了显著的性能提升。
Apr, 2021
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本研究提出了一种从视外的人-物互动中学习物体感知知识并将其转移到自我中心图像的任务,通过保留互动关联增强感知机会区域,实现了交叉视角的感知知识迁移框架,并构建了一个名为AGD20K的感知知识转化数据集。
Aug, 2022
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过利用在预训练的视觉-语言模型中内嵌的隐式适应性知识,本文提出了AffordanceCLIP方法,克服了传统监督学习方法和弱监督方法在适应性分割方面的限制,并实现了与专门训练方法相竞争的零样本性能,同时为模型的功能性推理打开了新的视角。
Apr, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
本研究针对三维物体可供性定位中人机交互图像和三维物体几何结构不一致的问题,提出了一种新颖的方法,利用多张人机交互图像学习可泛化的不变可供性知识。该方法通过识别多个图像间的共性交互模式,显著提高了三维物体可供性区域的定位精度,并在多项实验对比中超越了现有的最先进技术。
Aug, 2024
本研究解决了弱监督效用基础扎根中缺乏配对外观图和自观图数据集的问题,以及在单一物体上基础多样化效用的复杂性。提出的INTRA方法通过对比学习只依赖外观图进行特征识别,消除了配对数据集的需求,并结合视觉-语言模型嵌入,可以灵活生成文本条件下的效用图。实验结果表明,该方法在多个数据集上表现优异,并在新交互和物体的效用扎根方面具有显著的领域可扩展性。
Sep, 2024