带有角色引导和标题增强的遮蔽生成故事变换器

Mar, 2024

带有角色引导和标题增强的遮蔽生成故事变换器

Masked Generative Story Transformer with Character Guidance and Caption Augmentation

Christos Papadimitriou, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou

TL;DRStory Visualization 任务的挑战在于生成图像序列中的视觉质量和帧间的一致性。我们采用并行的基于 transformer 的方法，通过过去和未来的描述与图像进行交叉注意力来实现一致性，并结合文本条件和字符条件的逻辑回归来隐式生成角色，进而提出了一种角色指导技术。同时我们使用大型语言模型进行标题增强，得到了优于以往方法的最先进结果，验证了我们的定量结果的有效性。

Abstract

story visualization (SV) is a challenging generative vision task, that requires both visual quality and consistency between different frames in generated image sequences. Previous approaches either employ some ki

story visualization generative vision task memory mechanism transformer-based approach character guidance

发现论文，激发创造

通过在线文本增强和上下文记忆进行故事可视化

故事可视化是一项具有挑战性的文本到图像生成任务，不仅需要从文本描述中呈现视觉细节，还需要对跨多个句子的长期上下文进行编码。本文提出了一种新颖的记忆架构用于双向 Transformer，并采用在线文本增强生成多个伪描述作为训练过程中的辅助监督，以更好地适应推理中的语言变化，通过对 Pororo-SV 和 Flintstones-SV 两个流行的 SV 基准测试的广泛实验，该方法在各种评估指标上明显优于现有技术，并具有相似或更少的计算复杂性。

Aug, 2023

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

StoryGAN：用于故事可视化的序贯条件 GAN

本研究提出了一种新的任务 —— 故事可视化，为每个句子生成一张图像，针对图像连续性与场景和角色的全局一致性的挑战，构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN，并通过质量和一致性指标优于现有模型。

Dec, 2018

MAGVLT: 遮盖式生成式视觉与语言转换器

本篇论文提出了一种基于变压器的联合视觉与语言模型，名为 MAGVLT，它可以生成图像和文本序列，并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明，MAGVLT 可以在零样本情况下使用较小的模型（少于 500M 参数）在 MS-COCO 数据集上取得很好的成果。

Mar, 2023

基于视觉 Transformer 的图像描述故事模型

该研究提出了一种基于 Vision Transformer 的模型来描述图像集，借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系，模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。

Oct, 2022

通过视觉计划和令牌对齐实现基于人物的故事可视化

本文提出了一种基于 VQ-VAE 和文本 - 视觉 - token 技术的故事可视化方法，通过引入角色预测模型和视觉 token 补全模型，实现了角色的有效重现和高质量图像序列的生成。

Oct, 2022

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

视觉指导下的稀疏图到序列学习，用于生成长文本序列

本文通过考虑图像内容的视觉信息生成长文本序列的问题，提出了 SGST 模型，它使用 Transformer 架构来解决图像段落到自然语言序列的问题，可以直接编码图层级语义，结果在图像段落数据集上相对于之前的最新成果提高了 13.3% 的 CIDEr 评估指标。

Jul, 2020

CVT-SLR: 对比视觉 - 文本变换及变分对齐应用于手语识别

本文提出了一种新的对比视觉 - 文本转换（CVT-SLR）的方案，以充分探索视觉和语言模态的预训练知识，改进手语识别（SLR）的效果，实验结果表明其优于现有的单模态方法甚至优于 SOTA 多模态方法。

Mar, 2023

Make-A-Story: 视觉记忆条件下的连贯故事生成

本文提出了一种基于自回归扩散模型和视觉记忆模块的方法，利用软注意力机制实现了参考解析和场景、角色的一致性维护，用于生成与故事一致、质量高的帧画面，并在多句子情节的数据集上进行了实验验证。

Nov, 2022