COLINGSep, 2022

每张图片都有一个故事:基于图像的可控风格故事生成

TL;DR本文通过加入预训练模型 CLIP 和 GPT-2 解决数据稀缺性问题,加入风格适配器控制故事生成,尝试解决从图像到故事的生成难题,实现了包括非风格化、浪漫和动作等多种风格的故事生成。结果表明,该方法改善了故事的连贯性和图像与故事的相关性,但风格仍有待改进。