Apr, 2018
寻找鸡尾酒会中的发言者:一种基于音视频模型的独立演讲分离方法
Looking to Listen at the Cocktail Party: A Speaker-Independent
Audio-Visual Model for Speech Separation
TL;DR我们提出了一种联合音频-视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。