探索图像 - 语言变换器的动词理解

Jun, 2021

探索图像 - 语言变换器的动词理解

Probing Image-Language Transformers for Verb Understanding

Lisa Anne Hendricks, Aida Nematzadeh

TL;DR本文研究多模态图像语言变换器的预训练表示质量，研究表明在需要谓语理解的情况下这些模型的表现不佳，通过图像 - 语句对数据集评估模型性能，分类词汇类型并找到特别具有挑战性的词汇类型。

Abstract

multimodal image-language transformers have achieved impressive results on a variety of tasks that rely on fine-tuning (e.g., visual question answering and image retrieval). We are interested in shedding light on the quality of their →

multimodal image-language transformers pretrained representations verb understanding image-sentence pairs conceptual captions dataset

发现论文，激发创造

视觉和语言变换器是否学习了基于谓词和名词的依赖关系？

本文研究视觉 - 语言建模，通过创建新的多模态任务和分析预训练数据的质量，发现预训练数据的质量和多模态预训练目标对模型的性能影响重要。

Oct, 2022

跨语言视觉动词义消歧

本文介绍了一项较为具有挑战性的任务，即跨语言动词语义消歧，并提出了包含 9504 张图像的 MultiSense 数据集，该数据集标注有英语、德语和西班牙语动词。我们证明跨语言动词语义消歧模型在视觉背景下比单模基线表现更好，并且我们的最佳消歧模型所预测的动词意义在多模转换任务中可用于对纯文本机器翻译系统的改进。

Apr, 2019

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

本研究提出了一种指导掩蔽的探测方法，评估最近的多模态图像语言变形器模型的学习表示能力，重点研究考虑感兴趣区域（ROI）特征作为输入标记的多模态模型，通过指导掩蔽分析动词的理解能力，在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中，我们展示出这些模型能够以高准确度预测正确的动词。

Jan, 2024

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

利用视觉知识在语言任务中：跨模态知识转移的中间预训练的实证研究

本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现，视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。

Mar, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

基于多模态嵌入的动词无监督视觉语义消歧

本文介绍了一项新任务：为动词进行视觉意义消歧，以此作为多模态任务如图像检索和图像描述的基础，并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧，说明了在有和无标注图像情况下，文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集，并提供了下载链接。

Mar, 2016

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022