Dec, 2022

文本到图像生成中的空间关系基准测试

TL;DR本文研究基于大规模文本到图像合成(T2I),研究其中的空间理解能力,并提出了一个评估指标VISOR,并引入一个大规模的数据集SR2D以及自动化评估管道,对T2I模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持T2I空间推理研究。