Jul, 2022

图文检索的动态对比蒸馏

TL;DR本研究提出了一种名为 DCD 的新型动态对比蒸馏框架,用于压缩大型 VLP 模型以改善跨模态图像文本检索(ITR)的效率和部署,其中涉及多模态对比学习、动态蒸馏等技术,实验证明在 MS-COCO 和 Flickr30K 基准上,将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。