EMNLPOct, 2021

将视觉空间、语言和常识结构融合于故事可视化

TL;DR本文讨论如何更好地将文本转化为对应的图像序列,包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息,最终提高了生成图像的质量和一致性。