StoryDALL-E：基于预训练文本到图像转换器的故事延续适应

ECCVSep, 2022

StoryDALL-E：基于预训练文本到图像转换器的故事延续适应

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

Adyasha Maharana, Darryl Hannan, Mohit Bansal

TL;DR本文提出了一个可以基于现有的训练好的文本到图像转换模型生成连续图像和故事的方法，并加以改进。该方法利用任务特定的模块实现顺序图像生成和复制源图像中相关元素，并使用了全模型微调和基于提示的微调等策略进行参数调整。该方法在多个数据集上进行了测试，并通过生成故事情节的连续性检验了优点。最后，研究结果表明，在多个角色参与的叙述中，预训练模型的性能明显下降。

Abstract

Recent advances in text-to-image synthesis have led to large pretrained transformers with excellent capabilities to generate visualizations from a given text. However, these models are ill-suited for specialized tasks like →

text-to-image synthesis story visualization story continuation pretrained models generative adversarial networks

发现论文，激发创造

StoryGAN：用于故事可视化的序贯条件 GAN

本研究提出了一种新的任务 —— 故事可视化，为每个句子生成一张图像，针对图像连续性与场景和角色的全局一致性的挑战，构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN，并通过质量和一致性指标优于现有模型。

Dec, 2018

智能格林童话 —— 基于潜在扩散模型的开放式视觉叙事

本文提出了一种基于生成模型的 auto-regressive image generator，用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事，并介绍了一个名为 StorySalon 的新的数据集构建流程。实验证明，该模型在图像质量、风格一致性、内容一致性和视觉 - 语言对齐等方面具有显著优越性。

Jun, 2023

自适应上下文建模提升视觉故事生成

提出了一种在编码器和采样阶段均采用自适应上下文建模的方法来改进文本到图像生成模型，实现了对视觉化故事生成的全局一致性的提升，取得了 PororoSV 和 FlintstonesSV 数据集上最佳 FID 分数和生成语义一致故事图像的优异性能。

May, 2023

未来视角：利用大型预训练语言模型进行动态故事生成

本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight，以实现未来条件限制的故事生成任务，在保留自注意机制的同时，增加了对未来情节的建模，使生成内容更有逻辑性和连贯性。

Dec, 2022

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

StoryImager：一个统一高效的故事可视化和完善框架

StoryImager 是一个双向的、统一的、高效的框架，通过增强继承于预训练的文本到图像模型的 storyboard 生成能力实现双向生成。具体而言，我们引入了一种目标框架掩码策略来扩展和统一不同的故事图像生成任务。此外，我们提出了一种框架 - 故事交叉注意力模块，用于分解交叉注意力以实现局部保真度和全局一致性。此外，我们设计了一个上下文特征提取器，从整个故事线中提取上下文信息。广泛的实验结果证明了我们的 StoryImager 具有出色的性能。

Apr, 2024

使用扩散模型从纯文本故事生成连贯的故事书的零射生成

本文提出了一种基于文本的神经管道，利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像，实现连贯的故事书生成，并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。

Feb, 2023

利用对比框架学习动态离散实体状态生成连贯的叙述

本文提出一种基于 Transformer 模型的对话生成算法，在动态更新实体状态以及句子实现方面做了扩展，并引入了对比学习框架来学习状态表示，实验表明其比现有基线算法在生成连贯且多样化的文本方面具有更好的表现。

Aug, 2022

基于视觉 Transformer 的图像描述故事模型

该研究提出了一种基于 Vision Transformer 的模型来描述图像集，借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系，模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。

Oct, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022