Aug, 2023

DLIP:语言 - 图像预训练的提炼

TL;DR通过 DLIP(一个简单有效的 Distilling Language-Image Pre-training 框架)这篇论文,我们从不同维度对模型蒸馏进行了深入研究和分析,包括不同模块的架构特征和不同模态的信息传递,旨在研究如何蒸馏一个轻量的 VLP 模型,并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡,如图像 - 文本检索、图像描述和视觉问答等。