Aug, 2023

DLIP:语言-图像预训练的提炼

TL;DR通过 DLIP(一个简单有效的Distilling Language-Image Pre-training框架)这篇论文,我们从不同维度对模型蒸馏进行了深入研究和分析,包括不同模块的架构特征和不同模态的信息传递,旨在研究如何蒸馏一个轻量的VLP模型,并通过实验证明了DLIP在各种跨模态任务上取得了最先进的准确性/效率平衡,如图像-文本检索、图像描述和视觉问答等。