LOCATE: 弱监督可支配定位与传输物体部件

Mar, 2023

LOCATE: 弱监督可支配定位与传输物体部件

LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

Gen Li, Varun Jampani, Deqing Sun, Laura Sevilla-Lara

TL;DR本文提出一种名为LOCATE的框架，采用图像级别的适应性和对象标签对交互区域进行特征嵌入，并将其聚合为人类、对象部分和背景的紧凑原型之一，以指导功能接地的弱监督学习。对于新物体，实验证明我们的方法在训练图像和测试图像上性能都很好。

Abstract

Humans excel at acquiring knowledge through observation. For example, we can learn to use new tools by watching demonstrations. This skill is fundamental for intelligent systems to interact with the world. A key step to acquire this skill is to identify what part of the object affords each action, which is called →

发现论文，激发创造

基于视频的人体-物体交互热点区域

通过从视频中直接学习人类物体交互 '热点' 的方法，我们的研究表明弱监督的热点可以与强监督的 affordance 方法竞争，并能够预测新对象类别的对象交互。

Dec, 2018

3D AffordanceNet：视觉物体可供性理解的基准测试

本论文介绍了一个名为 3D AffordanceNet 的数据集，其中包含来自 23 个语义对象类别的 23k 个形状，注释了 18 个视觉可用性类别，并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络，并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明，视觉可用性理解是一个有价值但具有挑战性的基准测试。

Mar, 2021

基于可支配性迁移学习的人-物互动检测

引入了一种可用于检测新物体的人 - 物互动以及识别物体能力的“可供性转移学习方法”，有效提高了对新物体的 HOI 检测表现，并能够通过已知关于物体能力的表示信息来推断新物体的能力，并在 HICO-DET 以及 HOI-COCO 两个数据集上取得了显著的性能提升。

Apr, 2021

从非视角图像中学习affordance

提出了一种从超现实视角进行可支配特定元素分割的任务，旨在通过挖掘超现实交互中的特定线索，从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识，并将其传递到以自我的物体图像为中心的视角中。

Mar, 2022

外离视角下的基于接地的可用性

本研究提出了一种从视外的人-物互动中学习物体感知知识并将其转移到自我中心图像的任务，通过保留互动关联增强感知机会区域，实现了交叉视角的感知知识迁移框架，并构建了一个名为AGD20K的感知知识转化数据集。

Aug, 2022

AffordanceLLM: 视觉语言模型的作用感基础

通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识，我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升，我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。

Jan, 2024

CLIP对剥香蕉的了解

通过利用在预训练的视觉-语言模型中内嵌的隐式适应性知识，本文提出了AffordanceCLIP方法，克服了传统监督学习方法和弱监督方法在适应性分割方面的限制，并实现了与专门训练方法相竞争的零样本性能，同时为模型的功能性推理打开了新的视角。

Apr, 2024

WorldAfford: 基于自然语言指令的可实施性落地

基于自然语言指令的机会理解是本文的主题，通过WorldAfford框架中的创新性的机会推理链思维提示，使用SAM和CLIP定位与机会知识相关的对象，通过机会区域本地化模块确定对象的机会区域，在LLMaFF数据集上验证该框架表现出领先的状态，在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。

May, 2024

学习二维不变可供性知识以实现三维可供性定位

本研究针对三维物体可供性定位中人机交互图像和三维物体几何结构不一致的问题，提出了一种新颖的方法，利用多张人机交互图像学习可泛化的不变可供性知识。该方法通过识别多个图像间的共性交互模式，显著提高了三维物体可供性区域的定位精度，并在多项实验对比中超越了现有的最先进技术。

Aug, 2024

INTRA：基于交互关系的弱监督效用基础扎根

本研究解决了弱监督效用基础扎根中缺乏配对外观图和自观图数据集的问题，以及在单一物体上基础多样化效用的复杂性。提出的INTRA方法通过对比学习只依赖外观图进行特征识别，消除了配对数据集的需求，并结合视觉-语言模型嵌入，可以灵活生成文本条件下的效用图。实验结果表明，该方法在多个数据集上表现优异，并在新交互和物体的效用扎根方面具有显著的领域可扩展性。

Sep, 2024