SketchyScene：富注释场景草图

Aug, 2018

SketchyScene: Richly-Annotated Scene Sketches

Changqing Zou, Qian Yu, Ruofei Du, Haoran Mo, Yi-Zhe Song...

TL;DR我们创建了一个名为 SketchyScene 的数据集，旨在推进对物体和场景级别的素描理解的研究，该数据集通过一种新颖且精心设计的众包流程创建，包含大约 29,000 个场景级别的素描、7,000 多对场景模板和照片以及 11,000 多个物体的素描，并且数据集易于扩展和修改，可以训练新的计算模型以进行场景素描的语义分割等多种应用。

Abstract

We contribute the first large-scale dataset of scene sketches, SketchyScene, with the goal of advancing research on sketch understanding at both the object and scene level. The →

sketch understanding dataset crowdsourcing computational models semantic segmentation

发现论文，激发创造

SketchTriplet: 自监督剧情化的素描 - 文本 - 图像三元组生成

本文提出了一种自监督方法用于场景素描生成，该方法不依赖于任何现有的场景素描，可将单对象的素描转化为场景素描。通过引入矢量素描字幕和素描语义扩展方法，并设计一个融合多模态感知约束的生成网络，适用于零样本图像到素描的下游任务，实验证明其具有最先进的性能。最后，通过我们提出的素描生成方法，我们贡献了一个以场景素描为中心的大规模数据集，包括高度语义一致的 “文本 - 素描 - 图像” 三元组，该数据集可以显著提升现有模型在基于素描的图像检索和素描控制图像合成任务中的能力。我们将公开提供数据集和代码。

May, 2024

ScanNet: 室内场景丰富注释的 3D 重建

本文介绍了 ScanNet 数据集的构建，该数据集包含 2.5M 的视图和 1513 个场景，提供了 3D 摄像机姿势、表面重构和语义分割等信息，并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。

Feb, 2017

SketchyCOCO: 由自由形手绘场景草图生成图像

本文提出了一种通过免费手绘的草图实现控制式图像生成的方法，使用由属性向量桥接的生成对抗网络进行高质量的对象级图像内容生成，在称为 SketchyCOCO 的大规模混合数据集中验证了该方法的运用和效果并证明了其生成逼真复杂的场景级图像的能力。

Mar, 2020

SkyScenes: 用于航空场景理解的合成数据集

使用从无人机 (UAV) 角度捕获的繁密注释的航拍图像，我们创建了一个综合性的合成数据集 SkyScenes，以全面展示在不同布局（城市和农村地图）、天气条件、时间、俯仰角和海拔高度上的多样性，具有相应的语义、实例和深度注释。通过我们在 SkyScenes 数据集上的实验，我们证明：（1）在 SkyScenes 上训练的模型对不同的实际情境具有很好的泛化性能，（2）将真实图像的训练与 SkyScenes 数据相结合可以提高实际表现，（3）SkyScenes 的可控变化可以揭示模型对视点条件变化的响应方式，（4）引入额外的传感器模态（深度）可提高航拍场景理解能力。

Dec, 2023

FS-COCO: 探索常见物体在环境中的自由手绘素描理解

本文介绍了一个新的自由手场景草图数据集（FS-COCO），并使用该数据集进行了细粒度图像检索研究。作者还提出了一个层次化草图解码器，并探讨了草图和图片标题的信息互补性，以及结合两种模式的潜在好处。

Mar, 2022

TRoVE：将道路场景数据集转换成逼真的虚拟环境

本研究提出了一种用已有数据集进行数据注释以生成多模态数据的方法，以优化智能车辆系统中的数据模拟，实现高保真模拟并增加样本多样性并成功改善了语义分割的实验效果。

Aug, 2022

基于擦痕标注的高效语义场景补全

本研究提出了一种名为 Scribble2Scene 的简单而有效的方法，通过将稀疏的涂鸦标注与密集的几何标签相结合，从而弥补了稀疏涂鸦标注和完全监督之间的差距，实现了语义场景的完整性，并通过几何感知自动标注器建立和在线模型训练来提高性能。

May, 2024

城市景观语义理解数据集

为解决现有数据集不能很好地捕捉真实城市场景的复杂性，我们引入了 Cityscapes—— 一个基准套件和大规模数据集，用于像素级和实例级语义标注的方法的训练和测试。

Apr, 2016

稳定语义：自然图像中语义表示的合成语言 - 视觉数据集

理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集，其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布，检查了图像中对象的分布，并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展，为开发更复杂和有效的视觉模型奠定基础。

Jun, 2024

MegaScenes：大规模场景级别视图合成

通过从互联网照片收集中创建的大规模场景级数据集，我们分析了现有 NVN 方法的不足，并显著改善了生成一致性，验证了数据集和方法对于生成野外场景的有效性。

Jun, 2024