Mar, 2023

一种基于审慎的联合声音和文本解码器

TL;DR提出一种新的两阶段端到端的语音识别模型,通过训练配对数据和未配对文本数据的组合来提高 ASR 性能,称为 Deliberation-JATD,它结合了 Deliberation 的拼写校正能力和 JATD 的未配对文本数据使用,实现了在多个测试集上的显著提高,特别是在稀有词汇方面,相对降低了词误率 12% 至 22.5%。同时该模型不需要增加模型大小或多阶段训练,成为一种高效的适用于设备的候选模型。