Dec, 2017

CTC 声学模型的子词和交叉词单元

TL;DR本文提出了一种新方法来为 CTC 基于语音识别系统创建单元集。该方法使用 Byte Pair Encoding 在给定的训练文本上学习任意大小的单元集,通过使用子词和多词跨度单元,与使用字符或单词作为单位相比,可以在单位集大小和可用训练数据之间寻找良好的平衡点。通过结合使用独立语言模型的译码方法,能够实现基于字形的 CTC 系统的最新成果。