Nov, 2023

跨模态提示:为音频 - 视觉下游任务调整大型预训练模型

TL;DR本论文提出了一种新的双向引导空间 - 通道 - 时间(DG-SCT)注意力机制,通过引入可训练的跨模态交互层,从当前模态跨空间、通道和时间维度自适应地提取关键信息,以解决多模态任务中的特征提取挑战,其结果在多个下游任务中达到最先进水平,并在挑战性的少样本和零样本场景中表现出良好性能。