CVPRJun, 2024

MA-AVT:用于参数高效音频 - 视觉变换器的模态对齐

TL;DR该论文介绍了一种新的参数高效的视听变压器 MA-AVT,采用深度模态对齐来实现对应的多模态语义特征的对齐,通过联合单模态和多模态令牌学习,引入冻结的模态共享变压器,使模型能够学习到每种模态的独立表示,并关注它们之间的跨模态关系。此外,在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征,并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验,该方法在性能上取得了显著的改进。