生成以角色为中心的视觉故事
该研究利用VIST数据集,提出了一个模型,通过隐式学习提供的角色之间的关系,生成关注的角色的故事,旨在解决基于图像序列生成故事时,模型忽略可能存在的人和动物角色的问题。
Sep, 2019
论文介绍了一种名为CAST的基于Transformer的神经叙事生成框架,它使用常识推理来增强故事生成的连贯性和角色之间的交互,且在单一和多角色设置下比现有模型产生更连贯,主题相关,可享受和流畅的故事。
May, 2021
本文讨论如何更好地将文本转化为对应的图像序列,包括利用Transformers、constituency parse trees、commonsense信息以及visuo-spatial信息,最终提高了生成图像的质量和一致性。
Oct, 2021
本文提出了一种基于自回归扩散模型和视觉记忆模块的方法,利用软注意力机制实现了参考解析和场景、角色的一致性维护,用于生成与故事一致、质量高的帧画面,并在多句子情节的数据集上进行了实验验证。
Nov, 2022
本研究设计了一种新的图像故事生成数据集Visual Writing Prompts,通过众包方式收集与每个图像序列对应的12K个故事,并基于角色一致性提出了一种新的故事生成模型,与现有技术相比,生成的故事更为连贯、有更强的叙述性和视觉基础。
Jan, 2023
本文介绍了VIST角色数据集,提出了重要角色检测和角色定位两个任务,并开发了基于分布相似性和预训练视觉和语言模型的简单无监督模型。这些模型和数据集可为基于角色视角的故事分析和生成工作提供基础。
Mar, 2023
该论文提出了一种评估图像序列生成的故事质量的方法,并针对视觉扎根度进行了分析和度量,提出了一种模块化设计的评估工具 GROOViST,该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。
Oct, 2023
自动化故事可视化系统通过大规模语言模型的理解和规划能力进行布局规划,然后利用大规模文本到图像模型生成基于布局的复杂故事图像,通过密集条件生成模块将简单边界框布局转换为草图或关键点控制条件增加生成图像质量和简便的用户交互,同时提出了一种简单而有效的多视角一致的角色图像生成方法,消除了依赖人力收集或绘制角色图像的需求。
Nov, 2023
EpicEvo通过引入新的角色来适应性生成新故事,并将这些角色无缝地融入已有的人物动态中,使用了改良的文本数据集和一种具有对抗角色对齐模块的扩散式视觉故事生成模型,通过定量评估和定性研究证明了其在Diffusion模型中定制化视觉故事生成方面的优越性。
May, 2024
通过引入一种新的方法来衡量以人类相似性为基础的三个关键方面(视觉联系、连贯性和重复性),从而提高故事质量。此方法用于评估由多个模型生成的故事,结果表明,基础模型 LLaVA 获得最佳结果,但与 TAPM 相比,后者是一个参数更少的视觉叙事模型。通过提升 TAPM 的视觉和语言组件,可以实现具有相对较低参数数量的竞争性性能。最后,我们进行了人类评估研究,结果表明,“好”的故事可能需要超越人类的视觉联系、连贯性和重复性水平。
Jul, 2024