学习将神经模块组合用于图像字幕生成

Apr, 2019

学习将神经模块组合用于图像字幕生成

Learning to Collocate Neural Modules for Image Captioning

Xu Yang, Hanwang Zhang, Jianfei Cai

TL;DR通过学习协同神经模块（CNM）来生成连接视觉编码器和语言解码器的内部模式，进而生成图像说明，实验结果显示新的CNM方法在图像说明领域达到了最先进水平。

Abstract

We do not speak word by word from scratch; our brain quickly structures a pattern like \textsc{sth do sth at someplace} and then fill in the detailed descriptions. To render existing encoder-decoder image captioners such human-like reasoning, we propose a novel framework: learning to C

发现论文，激发创造

为视觉锚定学习组装神经模块树网络

提出了一种基于依赖解析树的神经模块树网络（NMTree），该网络通过规范化视觉构图，并根据其语言特征计算视觉注意而分解视觉构图，从而实现可解释的组合视觉推理，并且使用Gumbel-Softmax逼近进行端对端训练，可以应对解析错误的影响。

Dec, 2018

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态Transformer模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器-解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在MSCOCO和Conceptual Captions数据集上进行0.1％，0.5％和1％的训练，结果表明，我们在MS COCO上的CIDEr得分最好的基线模型高达10.8％，在Conceptual Captions上高达5.4％，并在医学报告生成数据集IU X-ray上取得了最新的结果。

Feb, 2021

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

从图像空间线性映射到文本空间

该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现，通过单一的线性变换，可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型，从而取得了与同时调整图像和文本的模型相同的指标。研究表明，语言模型的概念表示与以图像为基础的模型在结构上相似，甚至能够转移视觉信息。

Sep, 2022

学习组合视觉-语言神经模块用于图像字幕生成

本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法，其中包含四个编码器模块和一个解码器模块，并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性，实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。

Oct, 2022

具有判别性微调的跨领域图像字幕生成

本文提出在自我监督的证明性沟通目标情况下对预先训练的神经字幕系统进行微调，使其生成更详细的图像描述，并在 Conceptual Captions 数据集上进行验证。

Apr, 2023

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过COCO数据集上的实验进行了评估。

Aug, 2023