使用组合神经模块网络进行图像字幕生成

IJCAIJul, 2020

使用组合神经模块网络进行图像字幕生成

Image Captioning with Compositional Neural Module Networks

Junjiao Tian, Jean Oh

TL;DR本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Abstract

In image captioning where fluency is an important factor in evaluation, e.g., $n$-gram metrics, sequential models are commonly used; however, sequential models generally result in overgeneralized expressions that

image captioning sequential models compositional neural module networks hierarchical framework natural language

发现论文，激发创造

图像生成字幕的神经组合范式

本文提出了一种用于图像字幕生成的可分解的相互递归生成过程，通过对语义和句法明确的因式分解，更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练，并具有更好的广义和多样性。

Oct, 2018

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

视觉字幕的语义组合网络

该研究提出了一种基于语义组合网络的图像和视频片段字幕生成方法 (SCN)，采用概率建模技术和长短时记忆网络 (LSTM)，并在多个基准数据集上评估和验证了其优越性能。

Nov, 2016

神经模块网络

通过构建和学习神经模块网络，同时利用深度网络的表示能力和问题的组成语言结构，将问题分解成语言子结构，并使用这些结构动态实例化模块化网络，在具有挑战性的视觉问题回答数据集上取得了最先进的结果。

Nov, 2015

图像字幕中的组合泛化

该论文研究了图像编码模型的组合推广问题，使用多任务模型相结合的方法，结合了描述生成和图像 - 句子排序，并使用重新排序的解码机制，该模型在描述未见过的概念时比现有现有模型表现更好。

Sep, 2019

面向任务的模块化网络用于零样本组合学习

提出一种基于模块化体系结构和任务驱动的深度神经网络，能够在零样本情况下进行组合推理和分类，并在广义零样本分类问题上使用小模块优于现有方法。

May, 2019

学习将神经模块组合用于图像字幕生成

通过学习协同神经模块（CNM）来生成连接视觉编码器和语言解码器的内部模式，进而生成图像说明，实验结果显示新的 CNM 方法在图像说明领域达到了最先进水平。

Apr, 2019

一种具有视觉文本组合行为的深度网络

我们提出了一种深度网络，能够实现文本分类的高准确率，并表现出组合行为，即网络的低层将层特定的注意力权重分配给单个单词，而高层组成有意义的短语和从句，其长度随着网络的加深而增加，直到完全组合成句子。

Jul, 2017

学习组合视觉 - 语言神经模块用于图像字幕生成

本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法，其中包含四个编码器模块和一个解码器模块，并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性，实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。

Oct, 2022

基于堆栈神经模块网络的可解释神经计算

本研究提出一种新颖的神经模块化方法来实现基于组合推理的问题回答，该方法不需要强监督，能自动诱导期望的子任务分解并通过共享模块链接不同的推理任务，实验表明该模型比当前先进模型更易于人类评估者解释以及预测其中间结果的成功或失败。

Jul, 2018