Mar, 2021

WenLan:大规模多模态预训练桥接视觉和语言

TL;DR本文介绍了作者团队领导的 “文兰” 项目的主要研究方向,即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法,隐式地建模跨模态关联,从而更成功地实现大规模多模态预训练。同时,他们还建立了一个大规模的中文多源图像文本语料库,称为 RUC-CAS-WenLan,用于 BriVL 模型的预训练。实验结果表明,预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。