Jul, 2023

弱监督音视频事件定位的时间标签细化

TL;DR本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类,方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练,辅助任务可以更可靠地预测本地化事件标签。