OCTScenes：一种用于目标中心学习的多功能真实世界桌面场景数据集

Jun, 2023

OCTScenes：一种用于目标中心学习的多功能真实世界桌面场景数据集

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li...

TL;DR本文介绍了一种为物体为中心学习方法提供多样性的真实场景数据集 ——OCTScenes，该数据集包含 5000 个桌面场景，并对静态、动态和多视角场景的物体为中心的表示学习方法进行评估。实验证明，尽管基于复杂合成数据集的最新算法取得了显著进展，但它们存在从真实世界数据中学习有意义的表示的不足。

Abstract

Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in →

object-centric representation learning real-world dataset tabletop scenes multi-view scenes evaluation

发现论文，激发创造

TO-Scene：用于理解三维台面场景的大规模数据集

为了更好地理解 3D 室内场景的表面活动（如吃饭或写字），我们介绍了 TO-Scene，这是一个着重于桌面场景的大型数据集，包含三个变体。我们设计了一个有效且可扩展的框架来获得数据，并提出了桌面感知学习策略，以更好地感知小型桌面实例。最重要的是，我们还提供了一个真实扫描测试集 TO-Real，以验证 TO-Scene 的实际价值。

Mar, 2022

基于物体的学习中的泛化和鲁棒性关联

本文介绍了物体中心表示学习的概念，并在五个常见的多目标数据集上对最先进的无监督模型进行了训练和评估，研究了分割度量和下游对象属性预测等问题，并探讨了单个对象超出分布，全局属性的改变以及更少结构化的分布转变对其性能的影响。实验结果表明，物体中心表示对下游任务很有用，而且对于大多数影响对象的分布转变通常很坚韧。但是，当输入的分布变化不规则时，在分割和下游任务性能方面的韧性可能会因模型和分布转变而异。

Jul, 2021

用于多视角三维重建的现实数据集

本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集，旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注，为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放，包含注释工具和评估基准源代码。

Mar, 2022

城市景观语义理解数据集

为解决现有数据集不能很好地捕捉真实城市场景的复杂性，我们引入了 Cityscapes—— 一个基准套件和大规模数据集，用于像素级和实例级语义标注的方法的训练和测试。

Apr, 2016

OCAtari: 以物体为中心的 Atari 2600 强化学习环境

本文介绍了 OCAtari 这个环境，它提供了针对 Atart 游戏的以物体为中心的状态表示，可以用于深度强化学习方法的评估，允许我们改变和创建特定甚至是新颖的情境来进行 RAM 状态操作。

Jun, 2023

360+x: 一个全景多模态场景理解数据集

该研究使用多个视角和多种数据模式，提供全景视角和个人视角的场景理解数据集，以模拟真实世界中的信息访问方式，并通过 5 个不同的场景理解任务对数据集进行了评估，希望为综合场景理解提供更广泛的范围和多元化视角。

Apr, 2024

InteriorNet: 大规模多传感器照片真实室内场景数据集

本研究提供了一份可扩展性强、真实感更强、规模更大、变异性更强、且在训练和评估深度学习方法、基准测试同时定位和映射（SLAM）方面有更广泛用途的数据集，以支持计算机视觉领域的研究。我们使用数百万个专业室内设计和制作级家具资产进行高分辨率和高帧率视频序列渲染，并支持各种摄像头类型以及惯性测量。同时，我们展示了稀疏和密集 SLAM 算法的基准测试结果。

Sep, 2018

3D 大型场景的人类中心场景理解

本文提出了一个大规模多模态数据集 HuCenLife，用于人类中心场景理解，可用于人类姿势和动作的多样性、人与环境的复杂交互、拥挤场景中的遮挡等问题的研究，还提供了用于分割、检测和动作识别的基准测试任务，并设计了适用于大规模人类中心场景的新颖模块，实现了最先进的性能。

Jul, 2023

常见三维物体：大规模学习和评估真实场景下的 3D 类别重建

该研究提供了一种名为 CO3D 的大规模数据集，其中包含了 50 种 MS-COCO 类别的近 19,000 个视频，共计 1.5 百万帧真实的多视角图像，带有相机姿态和地面真实 3D 点云的注释，并利用该数据集进行了新视角综合和类别为中心的 3D 重建方法的大规模 “野外” 评估，并提出了一种基于 Transformer 的新型神经渲染方法 NerFormer，可根据物体的少数视角重建整个物体。

Sep, 2021

nuScenes：自动驾驶的多模态数据集

本文介绍了 nuTonomy 场景数据集，其中包含了自动驾驶车辆所有的传感器：6 个相机，5 个雷达和 1 个激光雷达，每个场景长达 20 秒，并标注了 23 个类别和 8 个属性的三维边界框。同时，定义了新的 3D 检测和跟踪指标，并提供了激光雷达和基于图像的检测和跟踪的基线。

Mar, 2019