多模机器翻译的视觉语言预训练调查
本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言BERT的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一理论框架之下,指出embedding layer在这些模型中具有至关重要的作用。
Nov, 2020
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索,并提出了一种基于Transformer模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下,我们在用非英语句子查询多语言文本-视频模型时发现性能显著下降。为了解决这个问题,我们引入了多语言多模态预训练策略,并收集了一个新的多语言教学视频数据集(MultiHowTo100M)进行预训练。在VTT上的实验表明,我们的方法显著提高了非英语语言的视频搜索效果,而无需额外的注释。此外,当有多语言注释时,我们的方法在VTT和VATEX上的多语言文本到视频搜索以及Multi30K上的多语言文本到图像搜索方面大幅优于最近的基准线。
Mar, 2021
UC2是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的Masked Language Modeling 和 Image-Text Matching训练目标扩展到多语言环境,通过共享视觉上下文(即使用图像作为枢纽)来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务,Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM),以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明,我们的提议框架在各种非英语基准上实现了新的最先进状态,并在英语任务上保持与单语预训练模型相当的性能。
Apr, 2021
本文综述了视觉-语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
本研究提出了CLIPTrans框架,通过简单地调整预训练的多模态M-CLIP和多语言mBART模型,使它们的嵌入空间对齐,并通过轻量级映射网络对mBART进行条件化。实验证明该框架的优点,并将标准基准提升了平均2.67个BLEU值。
Aug, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024