BriefGPT.xyz
Dec, 2022
文本到图像生成中的空间关系基准测试
Benchmarking Spatial Relationships in Text-to-Image Generation
HTML
PDF
Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz...
TL;DR
本文研究基于大规模文本到图像合成(T2I),研究其中的空间理解能力,并提出了一个评估指标VISOR,并引入一个大规模的数据集SR2D以及自动化评估管道,对T2I模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持T2I空间推理研究。
Abstract
spatial understanding
is a fundamental aspect of
computer vision
and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent large-scale
→