Jan, 2024

高效多尺度多模态瓶颈变压器用于音视频分类

TL;DR本文介绍了一种多尺度多模态转换器(MMT),利用层次化表示学习,进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合,提高动作识别准确率。