MMSep, 2022

语音视频定位的视频引导课程学习

TL;DR本文介绍了一种新的任务:口语视频 grounding(SVG),旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明,采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用,还将环境噪声随机添加到这种语音音频中,用于纠正识别性音素并从噪声音频中提取视频相关信息,研发一种新的视频引导课程学习(VGCL)方法。经过广泛的实验证明,我们提出的视频引导课程学习可能促进预训练过程,从而获得一种相互的音频编码器,并显着促进了口语视频焦点任务的表现。