ICCVJun, 2021
如何设计一个音视觉主动扬声器检测的三级结构
How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild
Okan Köpüklü, Maja Taseska, Gerhard Rigoll
TL;DR通过对一系列可控实验的研究,本文提出了一些实用的准则,介绍了一个名为 ASDNet 的新架构,在 AVA-ActiveSpeaker 数据集上取得了 93.5%的 mAP,明显优于第二位达 4.7%的巨大优势。