Mar, 2024

带有角色引导和标题增强的遮蔽生成故事变换器

TL;DRStory Visualization 任务的挑战在于生成图像序列中的视觉质量和帧间的一致性。我们采用并行的基于 transformer 的方法,通过过去和未来的描述与图像进行交叉注意力来实现一致性,并结合文本条件和字符条件的逻辑回归来隐式生成角色,进而提出了一种角色指导技术。同时我们使用大型语言模型进行标题增强,得到了优于以往方法的最先进结果,验证了我们的定量结果的有效性。