SITTA: 图像描述任务中的语义图像文本对齐

Jul, 2023

SITTA: 图像描述任务中的语义图像文本对齐

SITTA: A Semantic Image-Text Alignment for Image Captioning

Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter

TL;DR为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Abstract

Textual and semantic comprehension of images is essential for generating proper captions. The comprehension requires detection of objects, modeling of relations between them, an assessment of the semantics of the scene and, finally, representing the extracted knowledge in a language space. To achieve rich language capabilities while ensuring good image-langu

image captioning language models multimodal models linear mapping semantic transfer

发现论文，激发创造

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

学习多模态语义对齐模型以进行故事可视化

在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Nov, 2022

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

基于排序和 LLM 融合的图像标注描述性改进

本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法，通过使用图像文本度量来排名模型生成的字幕，然后使用大语言模型（LLM）融合前两个字幕，实验结果表明，我们的方法可以增强字幕的质量和吸引力，缩小了自动化系统与人类生成的描述之间的差距，并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。

Jun, 2023

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020