ICCVJun, 2021

如何设计一个音视觉主动扬声器检测的三级结构

TL;DR通过对一系列可控实验的研究,本文提出了一些实用的准则,介绍了一个名为 ASDNet 的新架构,在 AVA-ActiveSpeaker 数据集上取得了 93.5%的 mAP,明显优于第二位达 4.7%的巨大优势。