MMNov, 2023

多模态视频主题分割与双对比领域适应

TL;DR基于多模态的视频主题分段器利用视频转录和帧,结合跨模态注意机制,提出了一种双对比学习框架,从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明,我们的解决方案明显优于基准方法,无论是准确度还是可转移性,在域内和跨领域设置下都有显著提升。