Jul, 2015

深度多模态说话人命名

TL;DR本文提出了一种基于卷积神经网络的学习框架,通过融合面部和音频线索,实现了自动说话人命名,并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下,可以在两个不同的电视剧中实现最先进的说话人命名性能。