ACLMay, 2023

深度交互的跨模态提示学习

TL;DR本文提出了一种基于 CLIP 的深度交互式跨模态提示学习(DCP)方法,可实现视觉和语言之间的灵活相互作用,通过良好连接的多头注意力模块逐步强且稳定地交换各自的表示,并在 11 个图像分类数据集上进行综合少样本学习实验和域自适应能力分析,实验结果显示 DCP 表现出了超凡的少样本泛化性能和具有吸引力的域适应能力。