外离视角下的基于接地的可用性
通过从视频中直接学习人类物体交互 '热点' 的方法,我们的研究表明弱监督的热点可以与强监督的 affordance 方法竞争,并能够预测新对象类别的对象交互。
Dec, 2018
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本文提出一种名为LOCATE的框架,采用图像级别的适应性和对象标签对交互区域进行特征嵌入,并将其聚合为人类、对象部分和背景的紧凑原型之一,以指导功能接地的弱监督学习。对于新物体,实验证明我们的方法在训练图像和测试图像上性能都很好。
Mar, 2023
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过自我监督方法,以及使用相对方向和近距离的人物和物体点之间的关系定义的新型能力表征,我们提出了一种创新的方法来生成三维能力示例,展示了我们方法和表征的有效性。
Jan, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
本研究针对三维物体可供性定位中人机交互图像和三维物体几何结构不一致的问题,提出了一种新颖的方法,利用多张人机交互图像学习可泛化的不变可供性知识。该方法通过识别多个图像间的共性交互模式,显著提高了三维物体可供性区域的定位精度,并在多项实验对比中超越了现有的最先进技术。
Aug, 2024
本研究解决了弱监督效用基础扎根中缺乏配对外观图和自观图数据集的问题,以及在单一物体上基础多样化效用的复杂性。提出的INTRA方法通过对比学习只依赖外观图进行特征识别,消除了配对数据集的需求,并结合视觉-语言模型嵌入,可以灵活生成文本条件下的效用图。实验结果表明,该方法在多个数据集上表现优异,并在新交互和物体的效用扎根方面具有显著的领域可扩展性。
Sep, 2024
本研究解决了在3D环境中确定交互区域的难题,旨在提升具身代理与周围环境的智能交互能力。通过引入一种新任务——从自我中心交互中确定3D场景可供性,我们提出了Ego-SAG框架,以情感导向的方式聚焦于相关子区域,同时使用双向查询解码机制对特征进行对齐。实验表明,该方法具有良好的可行性和有效性,推动了领域的发展。
Sep, 2024