AffordanceLLM: 视觉语言模型的作用感基础

Jan, 2024

AffordanceLLM: 视觉语言模型的作用感基础

AffordanceLLM: Grounding Affordance from Vision Language Models

Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu...

TL;DR通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识，我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升，我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。

Abstract

affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detection, localization, and recogn

发现论文，激发创造

3D AffordanceNet：视觉物体可供性理解的基准测试

本论文介绍了一个名为 3D AffordanceNet 的数据集，其中包含来自 23 个语义对象类别的 23k 个形状，注释了 18 个视觉可用性类别，并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络，并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明，视觉可用性理解是一个有价值但具有挑战性的基准测试。

Mar, 2021

从非视角图像中学习affordance

提出了一种从超现实视角进行可支配特定元素分割的任务，旨在通过挖掘超现实交互中的特定线索，从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识，并将其传递到以自我的物体图像为中心的视角中。

Mar, 2022

以交互为预训练的地面功能表示学习

借助神经网络建模物体状态，可以实现有效的物体功能信息提取并与传统语义学模型相结合，能够在基于图像的语言学习上取得更好的表现。

Jul, 2022

外离视角下的基于接地的可用性

本研究提出了一种从视外的人-物互动中学习物体感知知识并将其转移到自我中心图像的任务，通过保留互动关联增强感知机会区域，实现了交叉视角的感知知识迁移框架，并构建了一个名为AGD20K的感知知识转化数据集。

Aug, 2022

LOCATE: 弱监督可支配定位与传输物体部件

本文提出一种名为LOCATE的框架，采用图像级别的适应性和对象标签对交互区域进行特征嵌入，并将其聚合为人类、对象部分和背景的紧凑原型之一，以指导功能接地的弱监督学习。对于新物体，实验证明我们的方法在训练图像和测试图像上性能都很好。

Mar, 2023

从演示视频到目标图像的可支配性 grounding

本文提出了基于Transformer的Affordance Transformer以及自我监督的预训练技术Mask Affordance Hand，用于视频到图像的Affordance Grounding任务，提高了视频图像之间的一致性，实现了多项基准测试中最先进的性能。

Mar, 2023

GRAFFORD: 一份基准数据集，用于测试语言和视觉模型对物体功能的知识

通过研究预训练语言模型和预训练视觉-语言模型对对象适用性的认知，我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力，并且预训练视觉-语言模型不一定能有效捕捉对象适用性。通过少样本微调，我们展示了在预训练语言模型和预训练视觉-语言模型中改进对象适用性知识的方法。

Feb, 2024

WorldAfford: 基于自然语言指令的可实施性落地

基于自然语言指令的机会理解是本文的主题，通过WorldAfford框架中的创新性的机会推理链思维提示，使用SAM和CLIP定位与机会知识相关的对象，通过机会区域本地化模块确定对象的机会区域，在LLMaFF数据集上验证该框架表现出领先的状态，在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。

May, 2024

学习二维不变可供性知识以实现三维可供性定位

本研究针对三维物体可供性定位中人机交互图像和三维物体几何结构不一致的问题，提出了一种新颖的方法，利用多张人机交互图像学习可泛化的不变可供性知识。该方法通过识别多个图像间的共性交互模式，显著提高了三维物体可供性区域的定位精度，并在多项实验对比中超越了现有的最先进技术。

Aug, 2024

INTRA：基于交互关系的弱监督效用基础扎根

本研究解决了弱监督效用基础扎根中缺乏配对外观图和自观图数据集的问题，以及在单一物体上基础多样化效用的复杂性。提出的INTRA方法通过对比学习只依赖外观图进行特征识别，消除了配对数据集的需求，并结合视觉-语言模型嵌入，可以灵活生成文本条件下的效用图。实验结果表明，该方法在多个数据集上表现优异，并在新交互和物体的效用扎根方面具有显著的领域可扩展性。

Sep, 2024