语言理解通用多模态表示
本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态skip-gram模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
本研究引入了UNITER,一种通过对四个图像-文本数据集(COCO,Visual Genome,Conceptual Captions和SBU Captions)进行大规模预训练学习的UNiversal image-text representation,其可为异构下游V + L任务提供联合多模态嵌入。
Sep, 2019
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
M3P是一个多任务多语言多模态预训练模型,通过多任务预训练将多语言预训练和多模态预训练结合到一个统一的框架中。该模型的目标是学习通用表示法,可以将出现在不同模态或不同语言中的对象映射到一个公共的语义空间。此外,该论文还提出了Multimodal Code-switched Training(MCT)的训练策略,该策略通过代码切换将单语预训练和多模态预训练相结合,以明确地鼓励图像和非英语语言之间的细粒度对齐。在跨两个基准数据集的多语言图像检索任务上进行了实验,包括MSCOCO和Multi30K。M3P在英语上可以获得可比较的结果,在非英语语言上则获得了最新的最佳结果。
Jun, 2020
本文利用包含超过10亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容易。
Feb, 2021
本篇论文提出了一种探测任务的方法,通过训练分类器来比较各种最新的文本-图像语义嵌入,揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明,视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。
Feb, 2021
通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。
Aug, 2023
通过视觉表征学习方法及无监督学习,我们提出了一种对文本进行语义学习的框架,借鉴认知科学和语言学的概念,利用错别字和词序混排等方法进行文本扰动,实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督,达到与现有自然语言处理方法相当的语义文本相似度性能,展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。
Feb, 2024