Dec, 2022

文本到图像生成中的空间关系基准测试

TL;DR本文研究基于大规模文本到图像合成 (T2I),研究其中的空间理解能力,并提出了一个评估指标 VISOR,并引入一个大规模的数据集 SR2D 以及自动化评估管道,对 T2I 模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持 T2I 空间推理研究。