Sep, 2018

用于多说话者音视频跟踪的变分贝叶斯推断

TL;DR本文提出了一种基于视听信息融合技术框架的多说话人跟踪系统,利用可变因素推断方法近似求解了连续和离散潜变量的后验联合分布,实现了跟踪对象的平滑轨迹估计和说话状态的判断。实验结果表明该方法在非正式会议中表现出较好的性能。