学习组合视觉 - 语言神经模块用于图像字幕生成

Oct, 2022

学习组合视觉 - 语言神经模块用于图像字幕生成

Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning

Xu Yang, Hanwang Zhang, Chongyang Gao, Jianfei Cai

TL;DR本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法，其中包含四个编码器模块和一个解码器模块，并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性，实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。

Abstract

Humans tend to decompose a sentence into different parts like \textsc{sth do sth at someplace} and then fill each part with certain content. Inspired by this, we follow the \textit{principle of modular design} to propose a novel image captioner: learning to Collocate visual-linguistic

image captioning neural modules visual-linguistic self-attention ms-coco dataset

发现论文，激发创造

学习将神经模块组合用于图像字幕生成

通过学习协同神经模块（CNM）来生成连接视觉编码器和语言解码器的内部模式，进而生成图像说明，实验结果显示新的 CNM 方法在图像说明领域达到了最先进水平。

Apr, 2019

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

CogVLM：预训练语言模型的视觉专家

CogVLM 是一种强大的开源视觉语言基础模型，通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距，实现了视觉语言特征的深度融合，而不会牺牲在自然语言处理任务上的性能，在 10 个经典的跨模态基准测试中取得了最先进的性能，包括 NoCaps，Flicker30k 字幕，RefCOCO，RefCOCO +，RefCOCOg，Visual7W，GQA，ScienceQA，VizWiz VQA 和 TDIUC，在 VQAv2，OKVQA，TextVQA，COCO 字幕等方面排名第二，超过或与 PaLI-X 55B 相匹配。

Nov, 2023

大型语言模型是视觉推理协调器

通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。

Oct, 2023

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

视频字幕的分层模块化网络

本文提出了一种分层的模块化网络来连接视频表示和语言语义，从实体级别、谓词级别和句子级别三个层次生成视频字幕，并在 MSVD 和 MSR-VTT 基准测试中表现优异。

Nov, 2021

组合视觉推理的课程学习

本研究提出了基于预定义跨模态嵌入的神经模块网络方法，以 “热启动” 学习 GQA 数据集，进而采用课程学习作为一种改进训练和更好利用数据的方法，在训练期间引入中间损失，并发现这可以简化课程学习策略。多个困难标准用于定义课程学习方法，该研究表明，适当选择课程学习方法可以大大降低训练成本和训练数据量，并对最终视觉问答准确性影响有限。

Mar, 2023

本地化符号化知识蒸馏用于视觉常识模型

使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。

Dec, 2023