Oct, 2023

基于发音驱动的子词切分的 CTC 端到端语音识别个性化

TL;DR使用深度学习和自动语音识别相结合的端到端语音识别系统在识别个人内容(如联系人姓名)方面的准确率有所提高,但仍存在挑战。本研究描述了我们基于连接主义时序分类的端到端语音识别系统的个性化解决方案,通过建立在以往研究的基础上,提出了一种从发音生成个人实体的附加子词划分的新方法。我们证明,在结合了上下文偏置和词片段先验归一化这两个已有技术的基础上,我们能够获得与具备竞争力的混合系统相当的个人命名实体准确性。