Dec, 2023
揭示视听早期融合变压器的强大力量:通过遮蔽建模实现密集交互
Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling
Shentong Mo, Pedro Morgado
TL;DR本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器,以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越,极大地推动了早期融合架构的应用。