PARP:自监督语音识别的剪枝、调整和再剪枝
该研究提出三种任务特定的结构化剪枝方法,以减少自我监督语音表示学习和前端网络的计算成本,同时保持模型准确性并提高计算效率。在实验中,该方法在减少 40% 到 50% 的计算成本的情况下,比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。
Feb, 2023
该论文提出了一种稀疏的多语言自动语音识别模型(ASR pathways),其激活特定于语言的子网络(“路径”),从而显式地学习每种语言的参数,具有更好的性能表现。
Sep, 2022
该研究旨在通过 Omni-sparsity supernet 方法联合训练一个紧凑稀疏的流式 ASR 模型和一个大型密集的非流式服务器模型,进而提高现有 ASR 模型的性能。
Jul, 2022
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题,并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型,超越 Wav2vec2.0 基准模型的表现,且具有 72% 更少的参数和两倍的推理速度。
Jun, 2023
本文介绍了一种方法,可以将预先训练的自我监督(SSL)语音表示转移到多种语言中,使用适配器模块加快新语言任务的预训练,并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示,然后应用这些语言表示进行自动语音识别。
Jul, 2021
本文提出了一种自适应掩蔽方法,用于高效地修剪多语言自动语音识别模型,并展示了该方法在目标为稀疏的单语言模型时的优势,同时减少了语言特定修剪的需求。
Sep, 2023
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022
本文介绍了动态稀疏神经网络 (DSNN) 技术,该技术能够在训练后根据需要在运行时即时切换到任何预定义的稀疏度配置,有效地解决了自动语音识别 (ASR) 等场景中硬件资源限制和延迟要求不同的问题,实验结果表明,DSNN 模型的表现与单一稀疏度网络的表现相当。
May, 2020
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。
Apr, 2024