Sep, 2021

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

TL;DR本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。