SketchyScene:富注释场景草图
本文提出了一种自监督方法用于场景素描生成,该方法不依赖于任何现有的场景素描,可将单对象的素描转化为场景素描。通过引入矢量素描字幕和素描语义扩展方法,并设计一个融合多模态感知约束的生成网络,适用于零样本图像到素描的下游任务,实验证明其具有最先进的性能。最后,通过我们提出的素描生成方法,我们贡献了一个以场景素描为中心的大规模数据集,包括高度语义一致的 “文本 - 素描 - 图像” 三元组,该数据集可以显著提升现有模型在基于素描的图像检索和素描控制图像合成任务中的能力。我们将公开提供数据集和代码。
May, 2024
本文介绍了 ScanNet 数据集的构建,该数据集包含 2.5M 的视图和 1513 个场景,提供了 3D 摄像机姿势、表面重构和语义分割等信息,并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。
Feb, 2017
本文提出了一种通过免费手绘的草图实现控制式图像生成的方法,使用由属性向量桥接的生成对抗网络进行高质量的对象级图像内容生成,在称为 SketchyCOCO 的大规模混合数据集中验证了该方法的运用和效果并证明了其生成逼真复杂的场景级图像的能力。
Mar, 2020
使用从无人机 (UAV) 角度捕获的繁密注释的航拍图像,我们创建了一个综合性的合成数据集 SkyScenes,以全面展示在不同布局(城市和农村地图)、天气条件、时间、俯仰角和海拔高度上的多样性,具有相应的语义、实例和深度注释。通过我们在 SkyScenes 数据集上的实验,我们证明:(1)在 SkyScenes 上训练的模型对不同的实际情境具有很好的泛化性能,(2)将真实图像的训练与 SkyScenes 数据相结合可以提高实际表现,(3)SkyScenes 的可控变化可以揭示模型对视点条件变化的响应方式,(4)引入额外的传感器模态(深度)可提高航拍场景理解能力。
Dec, 2023
本文介绍了一个新的自由手场景草图数据集(FS-COCO),并使用该数据集进行了细粒度图像检索研究。作者还提出了一个层次化草图解码器,并探讨了草图和图片标题的信息互补性,以及结合两种模式的潜在好处。
Mar, 2022
本研究提出了一种用已有数据集进行数据注释以生成多模态数据的方法,以优化智能车辆系统中的数据模拟,实现高保真模拟并增加样本多样性并成功改善了语义分割的实验效果。
Aug, 2022
本研究提出了一种名为 Scribble2Scene 的简单而有效的方法,通过将稀疏的涂鸦标注与密集的几何标签相结合,从而弥补了稀疏涂鸦标注和完全监督之间的差距,实现了语义场景的完整性,并通过几何感知自动标注器建立和在线模型训练来提高性能。
May, 2024
为解决现有数据集不能很好地捕捉真实城市场景的复杂性,我们引入了 Cityscapes—— 一个基准套件和大规模数据集,用于像素级和实例级语义标注的方法的训练和测试。
Apr, 2016
理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集,其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布,检查了图像中对象的分布,并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展,为开发更复杂和有效的视觉模型奠定基础。
Jun, 2024
通过从互联网照片收集中创建的大规模场景级数据集,我们分析了现有 NVN 方法的不足,并显著改善了生成一致性,验证了数据集和方法对于生成野外场景的有效性。
Jun, 2024