EMNLPNov, 2022

学习多模态语义对齐模型以进行故事可视化

TL;DR在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题,进而生成连贯、高质量的多句故事可视化。