通过自修剪学习双模式语音识别模型
该研究提出了一种统一框架的双模 ASR(自动语音识别),通过权重共享和全场景 ASR 的联合训练,特别是在训练期间进行知识蒸馏,使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络,并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究,取得了新的流式 ASR 结果。
Oct, 2020
本文介绍了动态稀疏神经网络 (DSNN) 技术,该技术能够在训练后根据需要在运行时即时切换到任何预定义的稀疏度配置,有效地解决了自动语音识别 (ASR) 等场景中硬件资源限制和延迟要求不同的问题,实验结果表明,DSNN 模型的表现与单一稀疏度网络的表现相当。
May, 2020
该论文提出了一种稀疏的多语言自动语音识别模型(ASR pathways),其激活特定于语言的子网络(“路径”),从而显式地学习每种语言的参数,具有更好的性能表现。
Sep, 2022
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
通过对一种在 conformer 模型上的 unsupervised 的 dual learning 方法的实验,取得了相对于之前模型的 10.7%/5.2%(没有 LM) 和 11.7%/16.4%(有 LM) 的 WER 提升,该方法对已经在大规模监督语料库上训练过的实时 on-device streaming 模型进行了优化。
Jan, 2023
本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别(ASR)的联合优化,主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式,以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示,在单一模型中与多个独立模块相比,流式 ASR 的字符错误率相对减少了 2.6%-5.3%,非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。
May, 2024
提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
Sep, 2023
该研究提出三种任务特定的结构化剪枝方法,以减少自我监督语音表示学习和前端网络的计算成本,同时保持模型准确性并提高计算效率。在实验中,该方法在减少 40% 到 50% 的计算成本的情况下,比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。
Feb, 2023
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-20%更低的字词误差率,同时在远场语音助手任务中优于强 RNN-T 基线。
Jun, 2023
深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究,并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略,从而在噪声和混响环境下显著提升多说话人语音识别性能。
Jul, 2023