学习多模态语义对齐模型以进行故事可视化

EMNLPNov, 2022

学习多模态语义对齐模型以进行故事可视化

Learning to Model Multimodal Semantic Alignment for Story Visualization

Bowen Li, Thomas Lukasiewicz

TL;DR在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Abstract

story visualization aims to generate a sequence of images to narrate each sentence in a multi-sentence story, where the images should be realistic and keep global consistency across dynamic scenes and characters.

story visualization gan-based generative model semantic alignment text-image semantic misalignment multi-sentence story

发现论文，激发创造

深度视觉语义对齐生成图像描述

本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Dec, 2014

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

词级细粒度故事可视化

本论文提出了一种新的句子表示方法来减轻不一致问题，并引入了融合特征的新的鉴别器和扩展的空间注意力来提高图像质量和故事连贯性，实验表明，与现有方法相比，该方法具有优越的性能。

Aug, 2022

StoryGAN：用于故事可视化的序贯条件 GAN

本研究提出了一种新的任务 —— 故事可视化，为每个句子生成一张图像，针对图像连续性与场景和角色的全局一致性的挑战，构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN，并通过质量和一致性指标优于现有模型。

Dec, 2018

多模式摘要的段落级视觉 - 语言语义对齐建模

本文提出了 ViL-Sum 来同时建模段落级别的视觉 - 语言语义对齐和多模式摘要，通过使用联合多模式编码器的两个任务，图像重新排列和图像选择，ViL-Sum 可以捕获模态间的相互作用，在最终摘要中选择与段落相关的摘要图像。实验结果表明，我们的方法显著优于当前最先进的方法，并且联合多模式编码器和两个任务可以有效地指导模型学习合理的段落 - 图像和摘要 - 图像关系。

Aug, 2022

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

具有组内语义的知识增强注意力网络用于视觉叙事

提出了一种基于知识增强的注意力网络，采用分组语义模型，能够生成比现有方法更合理和流畅的多模态视觉叙事，并在客观和主观评估指标上显示出优越性能。

Mar, 2022

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015