May, 2017

将声音与图像结合以确定视频中的发言者

TL;DR本文提出了一种音视频关联系统,将音频和视觉信号的信息融合,通过对视频中的统计数据的聚合实现面部和声音的有效关联,无需针对此任务的具体训练数据,并利用音频和视觉流中信息的自然相干性,特别适用于跟踪网络视频中的说话人,通过对真实数据集的实验表明,该方法的准确率约为 71%。