Nov, 2024

交错场景图用于交错文本和图像生成的评估

TL;DR本研究解决了文本和图像生成中的一致性问题,通过提出ISG评估框架,利用场景图结构捕获文本与图像块之间的关系,并在多个层次上评估生成内容。研究发现,虽然最近的统一视觉语言模型在交错内容生成上表现不佳,但基于分离语言和图像模型的组合方法可以大幅提升性能,为未来的研究提供了重要的基准和落脚点。