ObjectFolder 2.0：多感官物体数据集用于模拟到真实场景的转换

Apr, 2022

ObjectFolder 2.0：多感官物体数据集用于模拟到真实场景的转换

ObjectFolder 2.0: A Multisensory Object Dataset for Sim2Real Transfer

Ruohan Gao, Zilin Si, Yen-Yu Chang, Samuel Clarke, Jeannette Bohg...

TL;DRObjectFolder 2.0是一个大规模的多感官数据集，用于增强前人工作中不真实的物体建模。该数据集使用隐式神经表示，并通过包含三种感官数据（视觉、听觉和触觉）对每个物品进行了增强。研究表明，使用该数据集进行训练的模型可以成功地传输到现实世界中。

Abstract

Objects play a crucial role in our everyday activities. Though multisensory object-centric learning has shown great potential lately, the modeling of objects in prior work is rather unrealistic. ObjectFolder 1.0 is a recent dataset that introduces 100 virtualized objects with visual, a

发现论文，激发创造

密集物体网络：通过机器人操作学习密集视觉物体描述符

本文提出一种基于无监督学习的密集物体描述学习方法：Dense Object Nets，可用于视觉理解和操作，适用于针对刚性和非刚性物体的各种操作任务，并能够为多个物体类别提供通用描述。

Jun, 2018

从视频中学习对象的永恒性

通过数据学习目标物体的位置推测，需要拆分成四个子任务，其中第四个子任务最具挑战性，因为它需要一个系统来推理不可见物体的移动位置，本文介绍了一个统一的深度架构，可以在四种情况下学习预测物体位置，并在基于CATER的新数据集上对其进行评估，发现它优于以前的定位方法和各种基线。

Mar, 2020

iGibson 2.0：面向对象的日常家务任务机器人学习仿真

iGibson 2.0是一个开放源代码模拟环境，支持通过温度、湿度、清洁度等对象状态，实现更多样化的家庭任务模拟，并通过虚拟现实界面，收集人类示范并用于模仿学习，旨在支持更多的智能机器人领域研究。

Aug, 2021

常见三维物体：大规模学习和评估真实场景下的 3D 类别重建

该研究提供了一种名为CO3D的大规模数据集，其中包含了50种MS-COCO类别的近19,000个视频，共计1.5百万帧真实的多视角图像，带有相机姿态和地面真实3D点云的注释，并利用该数据集进行了新视角综合和类别为中心的3D重建方法的大规模“野外”评估，并提出了一种基于Transformer的新型神经渲染方法NerFormer，可根据物体的少数视角重建整个物体。

Sep, 2021

ObjectFolder: 具有隐含的视觉、听觉和触觉表征的物体数据集

该研究创建了一个包括100个虚拟对象的数据集，它旨在解决现有数据集太小、不足以代表实际物体等问题。该数据集可用于进行多感官输入识别、物体重建等基准测试，并可用于机器人手部抓取等任务。

Sep, 2021

家用物品机器人操作的6自由度位姿估计：可访问数据集和基准

本文介绍了一个新的数据集，用于6-DoF姿态估计已知物体，在机器人操作研究方面重要。数据集由一组玩具杂货物品组成，旨在方便机器人抓取和操纵，提供了这些物品的3D模型和RGBD图像，可用于产生合成训练数据，并提出了一个新的姿态评估指标ADD-H。

Mar, 2022

从大型语言模型中提取零样机通用常识，用于机器人三维场景理解

提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记，该算法不需要任务特定的预训练，并且可以泛化到任意房间和物品标签——这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的3D场景图，并希望将为机器人提供更具有可推广性和可扩展性的高级3D场景理解铺平道路。

Jun, 2022

ObjectFolder基准测试：神经和实体对象的多感官学习

介绍了 ObjectFolder Benchmark，这是一个围绕着视觉、听觉和触觉的多感知目标中心学习的基准套件，包括对象识别、重建和操作。同时引入了 ObjectFolder Real 数据集，包括 100 个真实物品的多感知测量，重点建立在收集 3D 网格、视频、冲击声音和真实物品的触觉读数的新流水线上。通过对来自 ObjectFolder 的 1000 个多感知神经对象和 ObjectFolder Real 的真实多感知数据进行系统性基准测试，结果显示了多感知感知的重要性，并揭示了在不同的目标中心学习任务中视觉、音频和触觉的各自作用。通过公开发布我们的数据集和基准套件，希望能够催化和支持计算机视觉、机器人学等领域中多感知目标中心学习上的新研究。

Jun, 2023

物理基础的视觉语言模型用于机器人操作

通过在36.9K个常见家居物体的数据集PhysObjects上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

ParaHome: 参数化日常家庭活动的人物物体互动的三维生成建模

通过ParaHome系统，我们收集了一个大规模的数据集，其中包含了人物与物体的三维动作，旨在构建一个用于学习和合成真实房间环境中的人物与物体互动的生成模型。

Jan, 2024