Mar, 2016
基于时空贝叶斯融合的音视频说话人分离
Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion
Israel D. Gebru, Silèye Ba, Xiaofei Li, Radu Horaud
TL;DR本文介绍了一种音视频 “位置时间标记” 模型,其中多人视觉跟踪与多重语音源定位相结合,通过一种音视频融合方法对话音频信号进行了分离,从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号,解决了多人语音辨别问题。