DiMBERT: 学习具有分离多模态注意的视觉语言基础表示

KDDOct, 2022

DiMBERT: 学习具有分离多模态注意的视觉语言基础表示

DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention

Fenglin Liu, Xian Wu, Shen Ge, Xuancheng Ren, Wei Fan...

TL;DRDiMBERT 是一个新的框架，利用分离的注意力空间对多模态信息进行处理，在引入视觉概念的同时，在文本格式中表示视觉信息，从而加强对视觉和语言之间关联的捕捉，可以用于图像描述，视觉叙事和指称表达的分类任务，并可以轻松的集成到现有的视觉和语言模型中以提高性能。

Abstract

vision-and-language (V-L) tasks require the system to understand both vision content and natural language, thus learning fine-grained joint representations of vision and language (a.k.a. v-l representations) is o

vision-and-language v-l representations dimbert multimodal-attention visual concepts

发现论文，激发创造

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

VD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer

该研究提出的 VD-BERT 框架，是一种简单且有效的视觉 - 对话 Transformer 编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与 BERT 语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。

Apr, 2020

XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器，提出了一个被称为 XDBERT 的新框架，经过训练后在常规语言理解评估（GLUE）、有对抗生成的情况（SWAG）以及可读性基准测试上比预训练的 BERT 表现更好，并分析了 XDBERT 在 GLUE 上的表现，证明了改进很可能是基于视觉语言的。

Apr, 2022

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Sep, 2021

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021