探索图像 - 语言变换器的动词理解
本文研究视觉 - 语言建模,通过创建新的多模态任务和分析预训练数据的质量,发现预训练数据的质量和多模态预训练目标对模型的性能影响重要。
Oct, 2022
本文介绍了一项较为具有挑战性的任务,即跨语言动词语义消歧,并提出了包含 9504 张图像的 MultiSense 数据集,该数据集标注有英语、德语和西班牙语动词。我们证明跨语言动词语义消歧模型在视觉背景下比单模基线表现更好,并且我们的最佳消歧模型所预测的动词意义在多模转换任务中可用于对纯文本机器翻译系统的改进。
Apr, 2019
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
本研究提出了一种指导掩蔽的探测方法,评估最近的多模态图像语言变形器模型的学习表示能力,重点研究考虑感兴趣区域(ROI)特征作为输入标记的多模态模型,通过指导掩蔽分析动词的理解能力,在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中,我们展示出这些模型能够以高准确度预测正确的动词。
Jan, 2024
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022
本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现,视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。
Mar, 2022
本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集,并提供了下载链接。
Mar, 2016
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
May, 2020
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022