分割物体可供性:可重复性与对尺度的敏感性
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
提出了一种从超现实视角进行可支配特定元素分割的任务,旨在通过挖掘超现实交互中的特定线索,从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识,并将其传递到以自我的物体图像为中心的视角中。
Mar, 2022
本文介绍了一个大规模多视角RGBD视觉可供性学习数据集及其基准测试方法,它包含了来自 37 种对象类别、配有 15 种视觉可供性类别和35 种杂乱/复杂的场景的 47210 个RGBD图像。我们提出了一个名为ARNet的【可供性识别网络】,证明了该数据集的挑战性以及提出的新的强大的可供性学习算法的明确前景。
Mar, 2022
提出了一种基于深度贝叶斯网络的探测物体可提供的作用及分布的算法,使用 Monte Carlo Dropout 优化了模型的准确度并在 Mask-RCNN 结构上做了修改,利用新的概率模型检测出语义和空间上的不同,并通过比较二进制掩码而非预测边界框的方法来评估概率分割,同时分析出照相机噪音和视觉难点导致的随机和确定性方差。
Mar, 2023
通过使用辅助分支处理物体和手部区域,我们提出了一种可视的可操作分割模型,通过手部和物体分割来学习手部遮挡下的可操作特征,实验结果表明,我们的模型在可操作分割和推广性方面优于现有模型。
Aug, 2023
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过自我监督方法,以及使用相对方向和近距离的人物和物体点之间的关系定义的新型能力表征,我们提出了一种创新的方法来生成三维能力示例,展示了我们方法和表征的有效性。
Jan, 2024
通过研究预训练语言模型和预训练视觉-语言模型对对象适用性的认知,我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力,并且预训练视觉-语言模型不一定能有效捕捉对象适用性。通过少样本微调,我们展示了在预训练语言模型和预训练视觉-语言模型中改进对象适用性知识的方法。
Feb, 2024
通过利用在预训练的视觉-语言模型中内嵌的隐式适应性知识,本文提出了AffordanceCLIP方法,克服了传统监督学习方法和弱监督方法在适应性分割方面的限制,并实现了与专门训练方法相竞争的零样本性能,同时为模型的功能性推理打开了新的视角。
Apr, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024