Openstory++：一种针对实例感知的开放域视觉叙事的大规模数据集和基准

Aug, 2024

Openstory++：一种针对实例感知的开放域视觉叙事的大规模数据集和基准

Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

Zilyu Ye, Jinxiu Liu, Ruotian Peng, Jinjin Cao, Zhiyang Chen...

TL;DR本研究解决了现有图像生成模型在处理长文本上下文时实例一致性不足的问题。作者提出了Openstory++，一个结合了高级实例特征标注的大规模数据集，并开发了注重实体中心的图像-文本生成方法。结果显示，该数据集在促进高质量视觉叙事模型的发展方面具有重要影响。

Abstract

Recent image generation models excel at creating high-quality images from brief captions. However, they fail to maintain consistency of multiple instances across images when encountering lengthy contexts. This inconsistency is largely due to in existing training datasets the absence of granular instance feature labeling in existing training datasets. To tack

发现论文，激发创造

视觉叙事

首个序列视觉语言数据集的发布，这个数据集中包含81,743张唯一图片和20,211个序列，旨在探讨其在视觉叙事任务中的应用，建立多个强劲的基础模型以及推动基于自动度量标准的进展，为模拟具象和比喻、社交语言提供了可能，从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。

Apr, 2016

创意视觉叙事流程

本文提出了一个计算创意视觉叙述的管道和任务模块, 用于构建一个具有不同环境, 基于叙述目标的变异和面向受众的故事叙述能力的计算机视觉技术, 并分析了收集的数据并描述了此方法向自动化的计划。

Jul, 2018

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制-转换机制和基于MART的transformer模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用Transformers、constituency parse trees、commonsense信息以及visuo-spatial信息，最终提高了生成图像的质量和一致性。

Oct, 2021

智能格林童话——基于潜在扩散模型的开放式视觉叙事

本文提出了一种基于生成模型的auto-regressive image generator，用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事，并介绍了一个名为StorySalon的新的数据集构建流程。实验证明，该模型在图像质量、风格一致性、内容一致性和视觉-语言对齐等方面具有显著优越性。

Jun, 2023

纯文本训练视觉叙事

利用跨模态预训练的CLIP模型，结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器，提出了一种仅使用文本数据进行训练的视觉叙事方法，有效提高了视觉叙事的泛化能力。在VIST基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果，都突显了我们方法在信息丰富性和稳健性方面的优越性。

Aug, 2023

StoryBench：用于连续故事可视化的多面向指标

从文本提示中生成视频故事是一项复杂的任务，需要高质量的视觉效果，视频需要根据文本提示的顺序进行逼真的呈现，而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足，我们在三个现有数据集上收集全面的人工注释，并引入了StoryBench：一个新的、具有挑战性的多任务基准，可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务：动作执行，即从条件视频开始生成下一个动作；故事延续，即从条件视频开始执行一系列动作；以及故事生成，即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线，并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后，我们为人工评估视频故事建立了指南，并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench旨在鼓励未来在这个令人兴奋的新领域中的研究。

Aug, 2023

大型语言模型作为一致的故事可视化器

StoryGPT-V使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

StoryImager：一个统一高效的故事可视化和完善框架

StoryImager是一个双向的、统一的、高效的框架，通过增强继承于预训练的文本到图像模型的storyboard生成能力实现双向生成。具体而言，我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外，我们提出了一种框架-故事交叉注意力模块，用于分解交叉注意力以实现局部保真度和全局一致性。此外，我们设计了一个上下文特征提取器，从整个故事线中提取上下文信息。广泛的实验结果证明了我们的StoryImager具有出色的性能。

Apr, 2024

DreamStory: 基于LLM引导的多主题一致扩散的开放域故事可视化

DreamStory是一个自动的开放域故事可视化框架，通过利用LLMs和一种新的多主题一致的扩散模型，生成一致的多主题图像序列。

Jul, 2024