distant speech recognition is being revolutionized by deep learning, that has
contributed to significantly outperform previous HMM-GMM systems. A key aspect
behind the rapid rise and success of DNNs is their abil
调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型,发现在训练和推理过程中,40ms 的上下文能够达到最佳的音素可辨识性,而太多上下文则会显著降低表示质量,并且这种模式在监督 ASR 中也适用,当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。
该研究提出了一种统一框架的双模 ASR(自动语音识别),通过权重共享和全场景 ASR 的联合训练,特别是在训练期间进行知识蒸馏,使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络,并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究,取得了新的流式 ASR 结果。