创意视觉叙事流程

ACLJul, 2018

A Pipeline for Creative Visual Storytelling

Stephanie M. Lukin, Reginald Hobbs, Clare R. Voss

TL;DR本文提出了一个计算创意视觉叙述的管道和任务模块，用于构建一个具有不同环境，基于叙述目标的变异和面向受众的故事叙述能力的计算机视觉技术，并分析了收集的数据并描述了此方法向自动化的计划。

Abstract

computational visual storytelling produces a textual description of events and interpretations depicted in a sequence of images. These texts are made possible by advances and cross-disciplinary approaches in natural language processing, generation, and →

computational visual storytelling natural language processing computer vision creative storytelling multi-image narration

发现论文，激发创造

构想叙事智能：创造性视觉讲故事选集

通过主题分析创作过程中的变异性，本研究呈现了创造性视觉叙事过程中的五个主题：根据视觉叙事与构想进行叙述、动态描绘实体 / 物体特征、感知场景的经验性信息、调节情绪、编码叙事偏见。从对人们从图像中获取故事的不同方式的理解出发，我们提出了收集以故事驱动的训练数据来支持自动故事生成的注意事项。同时，我们针对每个主题提出了计算机视觉叙述智能标准：创造性、可靠性、表达性、基于实证的、负责任的，从这些标准出发，我们讨论了如何突出创意表达、考虑偏见，并对视觉叙事世界的范围进行了操作。

Oct, 2023

基于情感和关键词的视觉故事生成

自动视觉化故事生成包含了自然对话生成和图像生成两个部分，其中，系统通过用户指定的关键词和情绪标签生成下一个句子，再用扩散模型生成相应的图像。此外，通过对象识别技术，生成的图像中的物品可被用于未来的故事发展。

Jan, 2023

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

隐藏与讲述：学习连接照片流进行视觉叙事

此篇论文旨在通过学习网络和 hide-and-tell 模型，实现基于照片流的视觉叙事，其中传统的 RNN 模型得到了改进和改善，最终在自动指标方面的表现优于之前的最先进方法，并在可视化上表现出填补照片之间的叙事空缺的能力。

Feb, 2020

神经故事板艺术家：使用连贯的图像序列可视化故事

本研究提出了一种基于 “灵感激发并创作” 框架的故事板创建方法，使用具有层次关注和密集视觉 - 语义匹配的故事到图像检索器选取相关电影图像，再通过三个渲染步骤增加图片的灵活性，包括擦除无关区域、统一图片风格和替换一致性人物等，并在视觉故事数据集上的实验证明，这种方法比现有基准工作更加有效。

Nov, 2019

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

SCO-VIST: 基于社交互动常识知识的视觉叙事

SCO-VIST 框架使用图表示形式，结合语义和基于发生的边权重，通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上，该框架在视觉根植性、连贯性、多样性和人性上优于其他模型，经过自动和人工评估。

Feb, 2024

基于视觉输入的故事生成：技术、相关任务和挑战

从视觉数据中创建引人入胜的叙述对于自动化数字媒体消费、辅助技术和互动娱乐至关重要。该研究综述了用于生成这些叙述的方法学，重点讨论其原理、优势和局限性。该综述还涵盖了与自动故事生成相关的任务，如图像和视频字幕以及视觉问题回答，以及没有视觉输入的故事生成。这些任务与视觉故事生成存在共同的挑战，并为该领域使用的技术提供了灵感。我们对主要数据集和评估指标进行了分析，并提供了对其局限性的批评性观点。

Jun, 2024