视觉与语言跨语言迁移的元学习

May, 2023

Meta-Learning For Vision-and-Language Cross-lingual Transfer

Hanxu Hu, Frank Keller

TL;DR本文提出的元学习微调框架可提高目前状态下的预训练视觉语言模型在跨语言多模态场景下的适应性和性能表现，实验证明该方法在跨语言零样本和少样本多模态交叉迁移的场景下均可提高模型性能。

Abstract

Current pre-trained vison-language models (PVLMs) achieve excellent performance on a range of multi-modal datasets. Recent work has aimed at building multilingual models, and a range of novel multilingual multi-modal datasets have been proposed. Current PVLMs typically perform poorly o

pre-trained vision-language models multilingual models meta-learning fine-tuning framework multi-modal zero-shot/few-shot cross-lingual transfer performance boost

发现论文，激发创造

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

多语言多模态预训练用于零样本跨语言视觉语言模型迁移

本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索，并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下，我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题，我们引入了多语言多模态预训练策略，并收集了一个新的多语言教学视频数据集（MultiHowTo100M）进行预训练。在 VTT 上的实验表明，我们的方法显著提高了非英语语言的视频搜索效果，而无需额外的注释。此外，当有多语言注释时，我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。

Mar, 2021

通过语言习得将多模态预训练推广到多语言

本研究提出了一种 MultiLingual Acquisition（MLA）框架，该框架可以将单语言视觉语言预训练模型轻松推广到多语言环境中，并采用两阶段训练策略来优化语言获取编码器。通过更少的数据和计算资源，我们的模型在多语言图像文本和视频文本检索基准上实现了最先进的性能。

May, 2022

元学习实现零样本跨语言迁移

研究多语言应用中，如何应用元学习来提高模型性能，通过实验表明在标准的监督学习、零样本学习和少样本学习的跨语言自然语言理解任务中，元学习对于 15 种语言始终有效。

Mar, 2020

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

低资源神经机器翻译元学习

本文利用元学习算法 (MAML) 扩展低资源 NMT 问题，并通过多语言高资源任务进行学习来适应低资源语言，并利用全局词汇表解决不同语言的输入输出错配，在使用 18 种欧洲语言作为源任务和 5 种不同的语言作为目标任务的情况下，相对于基于多语言、迁移学习的方法，表明所提出的方法显著优于现有方法，并仅需少量训练示例即可获得具有竞争力的 NMT 系统。

Aug, 2018

MetaVL：从语言模型向视觉语言模型转移上下文学习能力

本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力，通过将自然语言处理领域的元学习应用于视觉 - 语言领域，并使用视觉编码器实现跨域转移学习，实验证明可以显著提高视觉问答任务的上下文学习能力，甚至可以补偿模型的大小并取得比基线模型更好的表现。

Jun, 2023

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

跨视角语言建模：朝向统一的跨语言跨模态预训练

本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架，通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据（即图像字幕对）和多语言数据（即平行句子对）作为同一对象的两个不同视角，通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明，CCLM 显着优于先前的最新技术，在绝对平均改进方面超过 10％，是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。

Jun, 2022

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022