Jun, 2024

稳定语义:自然图像中语义表示的合成语言 - 视觉数据集

TL;DR理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集,其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我们研究了生成图像的语义分布,检查了图像中对象的分布,并在我们的数据上对字幕和开放词汇分割方法进行了基准测试。我们期望我们提出的数据集能促进视觉语义理解的进展,为开发更复杂和有效的视觉模型奠定基础。