Jul, 2022

数据有效性视觉 - 语言对齐的课程学习

TL;DR利用 TOnICS 算法对使用少量成对数据的预训练语言和视觉表示模型进行对齐,从而实现了使用更少的数据在 BERT 和 VinVL 预训练模型上进行映射,超越了 CLIP 在零样本图像检索方面的表现。