Jun, 2022

重新思考音频 - 视觉同步以进行活动演讲者检测

TL;DR本文提出一种跨模态对比学习策略,并在注意力模块中应用位置编码来识别音频和视频之间的同步信号,解决现有 ASD 方法不能识别异步视频导致误报的问题。实验结果表明该方法成功检测到非同步说话,解决了当前模型的局限性。