May, 2022

通过语言习得将多模态预训练推广到多语言

TL;DR本研究提出了一种 MultiLingual Acquisition(MLA)框架,该框架可以将单语言视觉语言预训练模型轻松推广到多语言环境中,并采用两阶段训练策略来优化语言获取编码器。通过更少的数据和计算资源,我们的模型在多语言图像文本和视频文本检索基准上实现了最先进的性能。