自适应上下文建模提升视觉故事生成

May, 2023

自适应上下文建模提升视觉故事生成

Improved Visual Story Generation with Adaptive Context Modeling

Zhangyin Feng, Yuchen Ren, Xinmiao Yu, Xiaocheng Feng, Duyu Tang...

TL;DR提出了一种在编码器和采样阶段均采用自适应上下文建模的方法来改进文本到图像生成模型，实现了对视觉化故事生成的全局一致性的提升，取得了 PororoSV 和 FlintstonesSV 数据集上最佳 FID 分数和生成语义一致故事图像的优异性能。

Abstract

diffusion models developed on top of powerful text-to-image generation models like Stable Diffusion achieve remarkable success in visual story ge

diffusion models text-to-image generation visual story generation adaptive context modeling state-of-the-art

发现论文，激发创造

Make-A-Story: 视觉记忆条件下的连贯故事生成

本文提出了一种基于自回归扩散模型和视觉记忆模块的方法，利用软注意力机制实现了参考解析和场景、角色的一致性维护，用于生成与故事一致、质量高的帧画面，并在多句子情节的数据集上进行了实验验证。

Nov, 2022

通过在线文本增强和上下文记忆进行故事可视化

故事可视化是一项具有挑战性的文本到图像生成任务，不仅需要从文本描述中呈现视觉细节，还需要对跨多个句子的长期上下文进行编码。本文提出了一种新颖的记忆架构用于双向 Transformer，并采用在线文本增强生成多个伪描述作为训练过程中的辅助监督，以更好地适应推理中的语言变化，通过对 Pororo-SV 和 Flintstones-SV 两个流行的 SV 基准测试的广泛实验，该方法在各种评估指标上明显优于现有技术，并具有相似或更少的计算复杂性。

Aug, 2023

智能格林童话 —— 基于潜在扩散模型的开放式视觉叙事

本文提出了一种基于生成模型的 auto-regressive image generator，用于在文本提示和前一个图像的条件下生成连贯的图像序列作为开放式视觉叙事，并介绍了一个名为 StorySalon 的新的数据集构建流程。实验证明，该模型在图像质量、风格一致性、内容一致性和视觉 - 语言对齐等方面具有显著优越性。

Jun, 2023

上下文扩散：上下文感知图像生成

我们提出了 Context Diffusion，这是一种基于扩散的框架，使图像生成模型能够从环境中呈现的可视示例中学习。通过为查询图像提供上下文示例和文本提示，最近的工作解决了图像生成中的这种上下文学习问题。然而，当没有提示时，生成的图像的质量和保真度会降低，表明这些模型无法真正从视觉环境中学习。为了解决这个问题，我们提出了一种新颖的框架，将可视环境的编码和查询图像结构分开。这使得我们的模型能够从视觉环境和文本提示中学习，也能从其中任何一个中学习。此外，我们使我们的模型能够处理少量示例的设置，以有效地解决不同的上下文学习场景。我们的实验证明和用户研究表明，与对应的模型相比，Context Diffusion 在领域内和领域外的任务中都表现出色，从而提高了图像质量和保真度。

Dec, 2023

使用扩散模型从纯文本故事生成连贯的故事书的零射生成

本文提出了一种基于文本的神经管道，利用预训练的语言模型和文本引导的潜在扩散模型来生成一系列连贯的图像，实现连贯的故事书生成，并展示了无需昂贵的图像 - 标题对训练的文本转换技术的性能表现。

Feb, 2023

StoryDALL-E：基于预训练文本到图像转换器的故事延续适应

本文提出了一个可以基于现有的训练好的文本到图像转换模型生成连续图像和故事的方法，并加以改进。该方法利用任务特定的模块实现顺序图像生成和复制源图像中相关元素，并使用了全模型微调和基于提示的微调等策略进行参数调整。该方法在多个数据集上进行了测试，并通过生成故事情节的连续性检验了优点。最后，研究结果表明，在多个角色参与的叙述中，预训练模型的性能明显下降。

Sep, 2022

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

因果故事：利用参数有效调整进行视觉故事合成的局部因果注意力

通过考虑先前标题、帧和当前标题之间的因果关系，Causal-Story 模型赋予权重，以生成当前帧，从而提高了故事生成的整体一致性。

Sep, 2023

改善基于扩散的图像合成

Diffusion models for image synthesis are improved using ConPreDiff, a method that incorporates context prediction, achieving superior results in unconditional image generation, text-to-image generation, and image inpainting.

Jan, 2024

在文本图像生成模型中定位和编辑知识

文本到图像扩散模型研究了知识表示和视觉特征，采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的，并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时，发现在公共文本到图像模型中，只存在一个因果状态，这在其他语言模型中是不同的。基于这种观察，引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix，可以在短时间内编辑（删除）模型中的概念，提供了 1000 倍的加速和与现有微调方法相当的编辑性能。

Oct, 2023