基于文本的从第一人称视角的作用感知学习

Apr, 2024

基于文本的从第一人称视角的作用感知学习

Text-driven Affordance Learning from Egocentric Vision

Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori

TL;DR通过文本指导的能力学习方法，学习机器人接触点和操纵轨迹，实现对实际场景中多样化互动的理解。

Abstract

visual affordance learning is a key component for robots to understand how to interact with objects. Conventional approaches in this field rely on pre-defined objects and actions, falling short of capturing diverse interactions in realworld scenarios. The key idea of our approach is em

visual affordance learning text-driven affordance learning contact points manipulation trajectories referring expression comprehension models

发现论文，激发创造

机器人操作的端到端操作能力学习

本研究使用视觉契合技术，通过预测关键点的接触信息，提出了一种端到端的控制策略学习框架，可以实现在不同类型的操纵任务中的泛化。结果显示，我们的算法在成功率上大大优于基线算法，包括基于视觉契合和强化学习方法。

Sep, 2022

一次性几何驱动的交互张量用于自我中心作用感知检测

利用几何信息推断三维场景中的互动信息和可能性，并在机器人和增强现实场景中进行实验，结果表明可以在新颖信搏的环境下以快速率进行预测。

Jun, 2019

学习环境感知下的遮挡情况下 3D 关节物体操作的可供性

通过结合物体层面的可行先验和环境约束，我们提出了一个环境感知的可行性框架，该框架能够在考虑环境约束的情况下学习可行性，对于包含单个遮挡物和复杂遮挡物组合的场景具有良好的泛化效果。

Sep, 2023

指导机器人探索的视觉可供性预测

通过学习视觉契合来指导机器人探索，并使用基于 Transformer 的模型来学习 VQ-VAE 潜在嵌入空间中条件分布，从而展现模型的组合泛化能力。训练完成的契合模型可用于机器人操作策略学习中的目标抽样分布。

May, 2023

对自我中心动作视频数据集的精准可负担注释

本文提出了一种有效的注释方案，通过将目标无关的运动动作和抓握类型作为能力标签，并引入机械动作概念来描述两个物体之间的动作可能性，解决了现有数据集中的问题，并通过将此方案应用于 EPIC-KITCHENS 数据集来验证了模型的有效性。

Jun, 2022

具有融入字幕的可自解释性可行动性学习

通过将可视管理学习和自我解释能力相结合，本研究提出了一种新的模型，能够有效地解决行为模糊性问题，并通过实验验证了其有效性。

Apr, 2024

自我中心视频中任务的同时定位与机会预测

通过训练基于空间定位的自我中心视频，我们提出了一种系统，以连接视觉输入和任务描述，以预测任务的空间作用，即人们完成任务的位置。我们的方法在预测任务可能发生的位置和当前位置可能发生的任务方面，表现优于使用 VLM 将任务描述的相似性映射到一组带有位置标签的图像的基线方法。我们的学习方法使得机器人能够使用自我中心感知导航到自然语言中指定的新任务的物理位置。

Jul, 2024

走向视觉功能学习：一个为功能分割和识别设定的基准

本文介绍了一个大规模多视角 RGBD 视觉可供性学习数据集及其基准测试方法，它包含了来自 37 种对象类别、配有 15 种视觉可供性类别和 35 种杂乱 / 复杂的场景的 47210 个 RGBD 图像。我们提出了一个名为 ARNet 的【可供性识别网络】，证明了该数据集的挑战性以及提出的新的强大的可供性学习算法的明确前景。

Mar, 2022

末端到端的视觉运动控制的可供性学习

采用模块化神经网络体系结构，利用合成数据和模拟技术，通过低维潜在表示生成场景可用性，成功训练机械臂政策。同时，提出了一种数据集生成方法，可轻松推广到新任务、对象和环境，无需手动像素标记。

Mar, 2019

从非视角图像中学习 affordance

提出了一种从超现实视角进行可支配特定元素分割的任务，旨在通过挖掘超现实交互中的特定线索，从而能够仅利用支配标签来学习对于超现实图像中特定物体可支配性的知识，并将其传递到以自我的物体图像为中心的视角中。

Mar, 2022