生成以角色为中心的视觉故事

Sep, 2024

Generating Visual Stories with Grounded and Coreferent Characters

Danyang Liu, Mirella Lapata, Frank Keller

TL;DR本研究解决了现有视觉叙事中角色缺失或模糊的问题，提出了以角色为中心的故事生成任务。我们首次介绍了一种模型，通过构建新的数据集，使生成的故事中的角色提及更为一致和准确。实验结果表明，该模型在角色重复性和一致性方面优于现有的方法，具有显著影响力。

Abstract

Characters are important in narratives. They move the plot forward, create emotional connections, and embody the story's themes. Visual Storytelling methods focus more on the plot and events relating to it, without building the narrative around specific characters. As a result, the gen

发现论文，激发创造

以人物为中心的叙事

该研究利用VIST数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

推断读者：以常识推理为引导的自动化故事生成

论文介绍了一种名为CAST的基于Transformer的神经叙事生成框架，它使用常识推理来增强故事生成的连贯性和角色之间的交互，且在单一和多角色设置下比现有模型产生更连贯，主题相关，可享受和流畅的故事。

May, 2021

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用Transformers、constituency parse trees、commonsense信息以及visuo-spatial信息，最终提高了生成图像的质量和一致性。

Oct, 2021

Make-A-Story: 视觉记忆条件下的连贯故事生成

本文提出了一种基于自回归扩散模型和视觉记忆模块的方法，利用软注意力机制实现了参考解析和场景、角色的一致性维护，用于生成与故事一致、质量高的帧画面，并在多句子情节的数据集上进行了实验验证。

Nov, 2022

基于人物角色的故事生成系统：利用策划好的图像序列激发创作

本研究设计了一种新的图像故事生成数据集Visual Writing Prompts，通过众包方式收集与每个图像序列对应的12K个故事，并基于角色一致性提出了一种新的故事生成模型，与现有技术相比，生成的故事更为连贯、有更强的叙述性和视觉基础。

Jan, 2023

在视觉叙事中检测和固定重要角色

本文介绍了VIST角色数据集，提出了重要角色检测和角色定位两个任务，并开发了基于分布相似性和预训练视觉和语言模型的简单无监督模型。这些模型和数据集可为基于角色视角的故事分析和生成工作提供基础。

Mar, 2023

GROOViST：一种视觉叙事中对物体进行定位的度量

该论文提出了一种评估图像序列生成的故事质量的方法，并针对视觉扎根度进行了分析和度量，提出了一种模块化设计的评估工具 GROOViST，该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。

Oct, 2023

AutoStory: 以最小化人力投入生成多样化的故事图像

自动化故事可视化系统通过大规模语言模型的理解和规划能力进行布局规划，然后利用大规模文本到图像模型生成基于布局的复杂故事图像，通过密集条件生成模块将简单边界框布局转换为草图或关键点控制条件增加生成图像质量和简便的用户交互，同时提出了一种简单而有效的多视角一致的角色图像生成方法，消除了依赖人力收集或绘制角色图像的需求。

Nov, 2023

演化叙事：新角色定制的基准和方法与扩散模型

EpicEvo通过引入新的角色来适应性生成新故事，并将这些角色无缝地融入已有的人物动态中，使用了改良的文本数据集和一种具有对抗角色对齐模块的扩散式视觉故事生成模型，通过定量评估和定性研究证明了其在Diffusion模型中定制化视觉故事生成方面的优越性。

May, 2024

评估视觉叙事需要更多的评测指标

通过引入一种新的方法来衡量以人类相似性为基础的三个关键方面（视觉联系、连贯性和重复性），从而提高故事质量。此方法用于评估由多个模型生成的故事，结果表明，基础模型 LLaVA 获得最佳结果，但与 TAPM 相比，后者是一个参数更少的视觉叙事模型。通过提升 TAPM 的视觉和语言组件，可以实现具有相对较低参数数量的竞争性性能。最后，我们进行了人类评估研究，结果表明，“好”的故事可能需要超越人类的视觉联系、连贯性和重复性水平。

Jul, 2024