MMAug, 2023

纯文本训练视觉叙事

TL;DR利用跨模态预训练的 CLIP 模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果,都突显了我们方法在信息丰富性和稳健性方面的优越性。