May, 2023
通用教师遇见弱监督音视频事件解析器
Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser
Yung-Hsuan Lai, Yen-Chun Chen, Yu-Chiang Frank Wang
TL;DR通过较大比例的对比预训练模型作为模态教师的视听标签阐述 (VAOLOR),我们在视频的未对齐设置中识别音频和视觉事件,并取得最新的最新成果,在所有 LLP 指标上实现了显着的优势 (+5.4 F-score for Type @ AV)。