May, 2020

情境中的主动说话者

TL;DR该论文提出了一种新的表示方法 Active Speaker Context,用于学习音视频观察中多个发言人之间的关系,并通过多态结构获得更好的检测表现,最终在 AVA-ActiveSpeaker 数据集上获得 mAP 为 87.1% 的优秀成果。