稳定语义：自然图像中语义表示的合成语言 - 视觉数据集

Jun, 2024

稳定语义：自然图像中语义表示的合成语言 - 视觉数据集

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Rushikesh Zawar, Shaurya Dewan, Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr...

TL;DR理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集，其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布，检查了图像中对象的分布，并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展，为开发更复杂和有效的视觉模型奠定基础。

Abstract

Understanding the semantics of visual scenes is a fundamental challenge in Computer Vision. A key aspect of this challenge is that objects sharing similar semantic meanings or functions can exhibit striking visua

semantics visual scenes object recognition scene understanding dataset

发现论文，激发创造

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

文本到图像生成的语义分离

该文提出了一种新的文本图像生成模型，使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性，并在 CUB 和 MS-COCO 数据集上展示了其优异性能。

Apr, 2019

使用稳定扩散进行无监督语义对应

本论文提出了一种新的利用语义知识的图像生成方法，通过优化模型中的提示值，可以实现在多张图片中寻找相同语义意义的位置，可以在多个数据集上达到最先进的性能。

May, 2023

城市景观语义理解数据集

为解决现有数据集不能很好地捕捉真实城市场景的复杂性，我们引入了 Cityscapes—— 一个基准套件和大规模数据集，用于像素级和实例级语义标注的方法的训练和测试。

Apr, 2016

InteriorNet: 大规模多传感器照片真实室内场景数据集

本研究提供了一份可扩展性强、真实感更强、规模更大、变异性更强、且在训练和评估深度学习方法、基准测试同时定位和映射（SLAM）方面有更广泛用途的数据集，以支持计算机视觉领域的研究。我们使用数百万个专业室内设计和制作级家具资产进行高分辨率和高帧率视频序列渲染，并支持各种摄像头类型以及惯性测量。同时，我们展示了稀疏和密集 SLAM 算法的基准测试结果。

Sep, 2018

可控多领域语义艺术创作

我们提出了一个新颖的多领域艺术品合成框架，通过语义布局生成艺术作品。我们还提出了一种名为 ArtSem 的数据集，包含 40,000 张不同领域的艺术品图像及其对应的语义标签地图。利用条件生成对抗网络（GAN），我们在不需要成对训练数据的情况下，从语义地图生成高质量的艺术品。我们的模型能够学习样式和语义信息的结合表示，从而提高生成艺术图像的质量。通过结合数据集和方法，我们能够生成用户可控的高质量艺术作品。

Aug, 2023

WildScenes：大规模自然环境下的二维和三维语义分割基准

近期在语义场景理解方面的进展主要得益于城市环境中具有语义注释的双模态（相机和激光雷达）数据集的可用性。然而，为了实现自然、非结构化环境下的语义感知应用，包括自然保护、搜救、环境监测和农业自动化，我们也需要具有语义注释的数据集。因此，我们介绍了 WildScenes，一个双模态基准数据集，其中包括自然环境下多个大规模遍历，包括高分辨率 2D 图像和密集 3D 激光雷达点云的语义注释，以及准确的 6 自由度姿态信息。我们的 3D 语义标签通过一种高效的自动化过程得到，该过程将多视角中的人工标注 2D 标签转移到 3D 点云中，从而避免了在 3D 中进行昂贵和耗时的人工注释。我们引入了关于 2D 和 3D 语义分割的基准，并评估了各种最新的深度学习技术，以展示在自然环境中语义分割中的挑战。我们提出了供标准基准和域自适应基准使用的训练 - 验证 - 测试划分，并利用一种自动划分生成技术来确保类别标签分布的平衡。该数据集、评估脚本和预训练模型将在接受之后发布于该 URL。

Dec, 2023

SkyScript：遥感视觉语言大规模和语义多样性数据集

使用地理坐标将无标签的遥感图像与 OpenStreetMap 中的丰富语义相连接，构建了一套遥感图像的综合视觉 - 语言数据集 SkyScript，包含 260 万个图像 - 文本对，覆盖 29K 个不同的语义标签。通过在此数据集上进行持续预训练，我们获得了一个视觉 - 语言模型，相较于基准模型，在七个基准数据集上实现了 6.2％的平均准确率提升，并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉 - 语言模型的进展，如开放词汇分类、检索、字幕生成和文本到图像合成。

Dec, 2023

语义合成图像

提出利用语义布局来综合生成逼真图像的新方法，该方法建立了区域之间的依赖关系并通过动态加权网络实现，既保留了语义区分，同时加强了语义相关性，提高了全局结构和细节的合成质量。

Sep, 2021

TRoVE：将道路场景数据集转换成逼真的虚拟环境

本研究提出了一种用已有数据集进行数据注释以生成多模态数据的方法，以优化智能车辆系统中的数据模拟，实现高保真模拟并增加样本多样性并成功改善了语义分割的实验效果。

Aug, 2022