May, 2023

通用教师遇见弱监督音视频事件解析器

TL;DR通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR),我们在视频的未对齐设置中识别音频和视觉事件,并取得最新的最新成果,在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。