EMNLPOct, 2021
将视觉空间、语言和常识结构融合于故事可视化
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization
Adyasha Maharana, Mohit Bansal
TL;DR本文讨论如何更好地将文本转化为对应的图像序列,包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息,最终提高了生成图像的质量和一致性。