Jan, 2024

基于知识增强的多角度视频表示学习,用于场景识别

TL;DR我们提出了一种新颖的双流框架,从多个角度(即时间和非时间角度)建模视频表示,并通过自蒸馏方式将两个角度融合在一起,在视频场景识别任务中自然引入知识。我们的实验结果表明,我们提出的方法是有效的。