Oct, 2023

CM-PIE:跨模态感知的交互增强音频视觉视频解析

TL;DR本文介绍了一种基于片段注意力模块的交互增强型跨模态知觉方法(CM-PIE),该方法通过学习细粒度特征和增强跨模态交互以共同优化音频和视觉信号的语义表示,提高了在 Look, Listen, and Parse 数据集上的解析性能。