Feb, 2020

基于 Transformer 的端到端多说话人语音识别

TL;DR本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型,应用于多说话者语音识别和神经束形成器中的遮盖网络,得以有效处理混响信号,并加入外部去混响预处理方法进行对比试验。实验证明,在单通道和多通道任务下,基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%,在混响环境中的相对错误率降低达 41.5% 和 13.8%。