Dec, 2017
CTC 声学模型的子词和交叉词单元
Subword and Crossword Units for CTC Acoustic Models
Thomas Zenkel, Ramon Sanabria, Florian Metze, Alex Waibel
TL;DR本文提出了一种新方法来为 CTC 基于语音识别系统创建单元集。该方法使用 Byte Pair Encoding 在给定的训练文本上学习任意大小的单元集,通过使用子词和多词跨度单元,与使用字符或单词作为单位相比,可以在单位集大小和可用训练数据之间寻找良好的平衡点。通过结合使用独立语言模型的译码方法,能够实现基于字形的 CTC 系统的最新成果。