Sep, 2023

AV-MaskEnhancer:通过音频 - 视觉蒙版自编码器增强视频表达

TL;DR通过结合视听信息,我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示,解决了从低分辨率和模糊的原始视频中提取特征的挑战,并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率,超越了现有工作并达到了最先进水平。