深度视觉语义对齐生成图像描述

Dec, 2014

Deep Visual-Semantic Alignments for Generating Image Descriptions

Andrej Karpathy, Li Fei-Fei

TL;DR本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Abstract

We present a model that generates natural language descriptions of images and their regions. Our approach leverages datasets of images and their sentence descriptions to learn about the inter-modal correspondences between language and visual data. Our alignment model is based on a novel combination of →

natural language generation image description convolutional neural networks recurrent neural networks multimodal embedding

发现论文，激发创造

学习多模态语义对齐模型以进行故事可视化

在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Nov, 2022

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

用多模态递归神经网络来解释图像

本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型，实现图像内容的生成式描述，模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层，经验证在三个基准数据集上的表现优于现有方法，还可以应用于图像或句子的检索任务，比现有直接优化排名目标函数的方法取得了显著的性能提升。

Oct, 2014

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

学习用于图像字幕生成的递归视觉表示

本研究探索了图像及其基于语句的描述之间的双向映射，提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子，并重新构建与图像相关的可视化特征，同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中，我们的自动生成字幕被人类喜欢的比例超过了 19.8％。和使用类似的视觉特征方法相比，我们的结果在图像和语句检索任务上达到了同等或更好的效果。

Nov, 2014

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

神经序列模型中的多语言图像描述

通过神经机器翻译和神经图像描述相结合的方法，在多语言图像描述任务中使用序列生成模型作为研究方法，我们发现相较于只针对单个语言的模型，使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。

Oct, 2015

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016