Jan, 2023
视觉语言预训练的过滤、蒸馏和难负样本
Filtering, Distillation, and Hard Negatives for Vision-Language
Pre-Training
TL;DR通过对大规模嘈杂数据进行对比学习训练的视觉-语言模型正在变得越来越受欢迎用于零样本识别问题,本文在数据集噪声、模型初始化和训练目标三个方面对对比预训练管道进行了改进。通过 Complexity、Action、and Text-spotting(CAT)筛选策略、概念蒸馏以及重要性采样方法,我们的 DiHT 方法极大地提高了对零样本和几样本线性探测的效果。