May, 2022

Zero and R2D2: 一个大规模的中文跨模态基准和视觉语言框架

TL;DR该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准(ZERO),该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集,并且提出了一个基于预排序和排序机制的 VLP 框架(R2D2),该框架采用目标导向蒸馏和特征导向蒸馏技术,用于实现大规模跨模态学习,并在图像 - 文本检索、文本 - 图像匹配、图像字幕生成、文本到图像生成和零样本图像分类等五个范畴的任务上实现了最先进的表现。