AffordanceLLM: 视觉语言模型的作用感基础
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本研究提出了一种从视外的人-物互动中学习物体感知知识并将其转移到自我中心图像的任务,通过保留互动关联增强感知机会区域,实现了交叉视角的感知知识迁移框架,并构建了一个名为AGD20K的感知知识转化数据集。
Aug, 2022
本文提出一种名为LOCATE的框架,采用图像级别的适应性和对象标签对交互区域进行特征嵌入,并将其聚合为人类、对象部分和背景的紧凑原型之一,以指导功能接地的弱监督学习。对于新物体,实验证明我们的方法在训练图像和测试图像上性能都很好。
Mar, 2023
本文提出了基于Transformer的Affordance Transformer以及自我监督的预训练技术Mask Affordance Hand,用于视频到图像的Affordance Grounding任务,提高了视频图像之间的一致性,实现了多项基准测试中最先进的性能。
Mar, 2023
通过研究预训练语言模型和预训练视觉-语言模型对对象适用性的认知,我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力,并且预训练视觉-语言模型不一定能有效捕捉对象适用性。通过少样本微调,我们展示了在预训练语言模型和预训练视觉-语言模型中改进对象适用性知识的方法。
Feb, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
本研究针对三维物体可供性定位中人机交互图像和三维物体几何结构不一致的问题,提出了一种新颖的方法,利用多张人机交互图像学习可泛化的不变可供性知识。该方法通过识别多个图像间的共性交互模式,显著提高了三维物体可供性区域的定位精度,并在多项实验对比中超越了现有的最先进技术。
Aug, 2024
本研究解决了弱监督效用基础扎根中缺乏配对外观图和自观图数据集的问题,以及在单一物体上基础多样化效用的复杂性。提出的INTRA方法通过对比学习只依赖外观图进行特征识别,消除了配对数据集的需求,并结合视觉-语言模型嵌入,可以灵活生成文本条件下的效用图。实验结果表明,该方法在多个数据集上表现优异,并在新交互和物体的效用扎根方面具有显著的领域可扩展性。
Sep, 2024