LOCATE: 弱监督可支配定位与传输物体部件
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本研究提出了一种从视外的人 - 物互动中学习物体感知知识并将其转移到自我中心图像的任务,通过保留互动关联增强感知机会区域,实现了交叉视角的感知知识迁移框架,并构建了一个名为 AGD20K 的感知知识转化数据集。
Aug, 2022
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过学习任务指令的对象信息、利用对象的动作前后条件和描述性知识,我们提出了一种改进短语定位模型的方法,通过大型语言模型来提取动作 - 对象知识,并设计了一种对象短语和符号知识的联合推理技术,实验证明我们的方法在各项指标上都取得了显著的改善。
Oct, 2023
基于自然语言指令的机会理解是本文的主题,通过 WorldAfford 框架中的创新性的机会推理链思维提示,使用 SAM 和 CLIP 定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在 LLMaFF 数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
通过从视频中直接学习人类物体交互 ' 热点 ' 的方法,我们的研究表明弱监督的热点可以与强监督的 affordance 方法竞争,并能够预测新对象类别的对象交互。
Dec, 2018
本文提出了一种新的大型语言引导的形状抓取数据集(名为 Lang-SHAPE),用于学习 3D 部件的 affordance 和抓握能力,还设计了一种新颖的两阶段细粒度机器人抓握网络(名为 PIONEER)进行模型测试。结果表明,我们的方法在参考标识、affordance 推理和 3D 部分感知抓握方面实现了令人满意的性能和效率。
Jan, 2023
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即使在杂乱无章的场景中也能学习到高度 V-measure 的对象功能群簇,并且能够有效地处理对象遮挡,并且不强制施加任何对象或场景约束。
Mar, 2023