Aug, 2024

利用视觉-语言预训练的无监督领域适应

TL;DR本文解决了无监督领域适应 (UDA) 中的两个关键挑战,尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD),利用VLP模型作为教师模型来指导目标领域的学习,从而实现了业界领先的性能。此外,提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性,显著提高了效率。