Nov, 2019

pyannote.audio: 说话人分离的神经构建模块

TL;DR该论文介绍了 pyannote.audio,他是一个基于 Python 的开源工具包,使用了 PyTorch 机器学习框架,提供端到端可训练的神经网络组件,用于实现说话人分离。其中包括预训练模型,涵盖了广泛的领域,如语音活动检测、说话者更改检测、重叠语音检测和说话者嵌入等,并在大多数领域中达到了最先进的性能。