ICCVAug, 2023

通过在线文本增强和上下文记忆进行故事可视化

TL;DR故事可视化是一项具有挑战性的文本到图像生成任务,不仅需要从文本描述中呈现视觉细节,还需要对跨多个句子的长期上下文进行编码。本文提出了一种新颖的记忆架构用于双向 Transformer,并采用在线文本增强生成多个伪描述作为训练过程中的辅助监督,以更好地适应推理中的语言变化,通过对 Pororo-SV 和 Flintstones-SV 两个流行的 SV 基准测试的广泛实验,该方法在各种评估指标上明显优于现有技术,并具有相似或更少的计算复杂性。