Oct, 2019

使用深度残差网络和双向长短时记忆检测多种语音不流畅

TL;DR本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型,采用了深度残差网络和双向长短时记忆层,以识别几种形式的口吃,平均漏诊率仅为 10.03%,比现有技术先进了近 27%。