Oct, 2023

OpenLEAF: 开放领域的图文交替生成与评估

TL;DR这项工作研究了一项名为开放域交错图像 - 文本生成的挑战性任务,该任务根据输入查询生成交错的文本和图像。我们提出了一种新的基于大型语言模型(LLMs)和预训练的文本到图像模型(T2I)的交错生成框架,即 OpenLEAF。在 OpenLEAF 中,LLM 生成文本描述,协调 T2I 模型,创建用于生成图像的视觉提示,并将全局上下文融入到 T2I 模型中。这种全局上下文提高了交错生成中图像的实体和风格的一致性。我们首先提出使用大型多模态模型(LMMs)来评估开放域交错图像 - 文本序列的实体和风格的一致性。根据 LMM 在我们构建的评估集上的评估,所提出的交错生成框架可以为各种领域和应用生成高质量的图像 - 文本内容,例如如何问答、叙事、图形故事改写以及网页 / 海报生成任务。此外,我们通过人类评估验证了所提出的 LMM 评估技术的有效性。我们希望我们提出的框架、基准和 LMM 评估能够帮助建立有趣的交错图像 - 文本生成任务。