Jun, 2019

现实世界会议的音视频发言人分离技术

TL;DR该论文利用周围视视频和单通道或多通道音频生成强大的发言人识别输出,在真实世界会议中展示出优异的定量和定性性能,并探究了在可用多通道音频的情况下,通过集束成形和视频协同使用,进一步提高性能的方法。