COLINGSep, 2022
每张图片都有一个故事:基于图像的可控风格故事生成
Every picture tells a story: Image-grounded controllable stylistic story generation
Holy Lovenia, Bryan Wilie, Romain Barraud, Samuel Cahyawijaya, Willy Chung...
TL;DR本文通过加入预训练模型 CLIP 和 GPT-2 解决数据稀缺性问题,加入风格适配器控制故事生成,尝试解决从图像到故事的生成难题,实现了包括非风格化、浪漫和动作等多种风格的故事生成。结果表明,该方法改善了故事的连贯性和图像与故事的相关性,但风格仍有待改进。