探索和提取跨模态信息以用于图像字幕生成

IJCAIFeb, 2020

探索和提取跨模态信息以用于图像字幕生成

Exploring and Distilling Cross-Modal Information for Image Captioning

Fenglin Liu, Xuancheng Ren, Yuanxin Liu, Kai Lei, Xu Sun

TL;DR本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Abstract

Recently, attention-based encoder-decoder models have been used extensively in image captioning. Yet there is still great difficulty for the current methods to achieve deep image understanding. In this work, we a

attention-based encoder-decoder models image captioning visual attention semantic attention transformer

发现论文，激发创造

视觉语言理解的蒸馏双编码模型

提出了一种跨模态关注蒸馏框架来训练双编码器模型，以用于视觉语言理解任务，如视觉推理和视觉问答，并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。

Dec, 2021

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016

LILE: 使用 Transformer 的双重注意力网络进行组织病理学资料检索前深入查看

提出了一种使用自注意力作为额外损失项的新架构，以在联合潜在空间中表示图像和文本；在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明，该方法具有很好的效果。

Mar, 2022

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

用于解释双模态和编码器 - 解码器 transformers 的通用注意力模型可解释性

本文提出了第一个用于解释任何基于 Transformer 结构的预测的方法，包括双模态 Transformers 和具有协同注意力的 Transformers，通过考虑并行的多个注意力图来突出与模型输入预测相关的信息。我们将这种通用的解决方案应用于三个最常用的结构，并表明我们的方法优于所有现有的从单模态的可解释性方法进行改进的方法。

Mar, 2021

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过 COCO 数据集上的实验进行了评估。

Aug, 2023