Mar, 2016

基于时空贝叶斯融合的音视频说话人分离

TL;DR本文介绍了一种音视频 “位置时间标记” 模型,其中多人视觉跟踪与多重语音源定位相结合,通过一种音视频融合方法对话音频信号进行了分离,从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号,解决了多人语音辨别问题。