走向视觉功能学习：一个为功能分割和识别设定的基准

Mar, 2022

走向视觉功能学习：一个为功能分割和识别设定的基准

Towards Visual Affordance Learning: A Benchmark for Affordance Segmentation and Recognition

Zeyad Osama Khalifa, Syed Afaq Ali Shah

TL;DR本文介绍了一个大规模多视角 RGBD 视觉可供性学习数据集及其基准测试方法，它包含了来自 37 种对象类别、配有 15 种视觉可供性类别和 35 种杂乱 / 复杂的场景的 47210 个 RGBD 图像。我们提出了一个名为 ARNet 的【可供性识别网络】，证明了该数据集的挑战性以及提出的新的强大的可供性学习算法的明确前景。

Abstract

The physical and textural attributes of objects have been widely studied for recognition, detection and segmentation tasks in computer vision. A number of datasets, such as large scale ImageNet, have been proposed for feature learning using data hungry deep neural networks and for hand-crafted feature extraction. To intelligently interact with objects, robot

visual affordance dataset affordance recognition affordance segmentation deep learning

发现论文，激发创造

3D AffordanceNet：视觉物体可供性理解的基准测试

本论文介绍了一个名为 3D AffordanceNet 的数据集，其中包含来自 23 个语义对象类别的 23k 个形状，注释了 18 个视觉可用性类别，并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络，并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明，视觉可用性理解是一个有价值但具有挑战性的基准测试。

Mar, 2021

AffordanceNet: 一种端到端的深度学习方法，用于检测物体的可供性

本文介绍了一种名为 AffordanceNet 的新型深度学习方法，可以从 RGB 图像中同时检测多个对象及其负载承载能力，实验结果表明 AffordanceNet 的性能优于现有最先进的方法，适用于实时机器人应用。

Sep, 2017

多标签自我中心视觉感知映射

准确的多标签感知能力和分割是基于交互的许多复杂系统中的重要组成部分。我们提出了一种新的感知能力方法，它能够实现准确的多标签分割。该方法可以从交互的第一人称视频中自动提取基于环境的感知能力，并提供感知能力位置的像素级精度。使用此方法构建了基于 EPIC-Kitchen 数据集的最大且最完整的感知能力数据集 EPIC-Aff，其中提供了基于交互、多标签、度量和空间感知能力注释。然后，我们提出了一种基于多标签检测的感知能力分割方法，可以使多个感知能力在同一空间中存在，例如与相同对象相关联。我们提出了几种使用多种分割架构的多标签检测策略。实验结果凸显了多标签检测的重要性。最后，我们展示了如何利用我们的度量表示来构建空间行为中心区域的交互热点地图，并使用该表示执行任务导向的导航。

Sep, 2023

从 RGB-D 视频中学习人类活动和物体可支配性

该研究旨在利用 Markov 随机场和支持向量机算法，提取描述性标签以识别人类活动和物品仿真，并应用于机器人的辅助任务中，其准确度在 120 个视频的测试中分别为 80% (物品仿真）、64%（子活动）和 75% (高级活动）。

Oct, 2012

深度感知 - 操作感知基础的物体识别

通过使用深度学习，结合物体颜色和 affordance 信息，提高了物体识别的鲁棒性。

Apr, 2017

末端到端的视觉运动控制的可供性学习

采用模块化神经网络体系结构，利用合成数据和模拟技术，通过低维潜在表示生成场景可用性，成功训练机械臂政策。同时，提出了一种数据集生成方法，可轻松推广到新任务、对象和环境，无需手动像素标记。

Mar, 2019

机器人操作的端到端操作能力学习

本研究使用视觉契合技术，通过预测关键点的接触信息，提出了一种端到端的控制策略学习框架，可以实现在不同类型的操纵任务中的泛化。结果显示，我们的算法在成功率上大大优于基线算法，包括基于视觉契合和强化学习方法。

Sep, 2022

基于文本的从第一人称视角的作用感知学习

通过文本指导的能力学习方法，学习机器人接触点和操纵轨迹，实现对实际场景中多样化互动的理解。

Apr, 2024

基于贝叶斯深度学习的图像感知分割

提出了一种基于深度贝叶斯网络的探测物体可提供的作用及分布的算法，使用 Monte Carlo Dropout 优化了模型的准确度并在 Mask-RCNN 结构上做了修改，利用新的概率模型检测出语义和空间上的不同，并通过比较二进制掩码而非预测边界框的方法来评估概率分割，同时分析出照相机噪音和视觉难点导致的随机和确定性方差。

Mar, 2023

弱监督可支配分割的自适应二值化

本文提出了一种基于稀疏关键点学习卷积神经网络进行可供性分割的迭代方法，并提出了一种自适应的二值化方法，经过两个可供性数据集的实验，我们的方法在弱监督可供性分割领域取得了最好的表现。

Jul, 2017