PARP：自监督语音识别的剪枝、调整和再剪枝

Jun, 2021

PARP：自监督语音识别的剪枝、调整和再剪枝

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition

Cheng-I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi-Lun Liao...

TL;DR通过发现语音自监督训练模型中的稀疏子网络，提出了一种名为 PARP 的裁剪调整反复裁剪的策略，使低资源情况下的 ASR 系统表现得更好，其相较于常规的裁剪方法更具有性价比。

Abstract

self-supervised speech representation learning (speech SSL) has demonstrated the benefit of scale in learning rich representations for Automatic Speech Recognition (ASR) with limited paired data, such as wav2vec 2.0. We investigate the existence of →

self-supervised speech representation learning sparse subnetworks automatic speech recognition prune-adjust-re-prune low-resource asr

发现论文，激发创造

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023

学习 ASR 路径：一种稀疏多语言 ASR 模型

该论文提出了一种稀疏的多语言自动语音识别模型（ASR pathways），其激活特定于语言的子网络（“路径”），从而显式地学习每种语言的参数，具有更好的性能表现。

Sep, 2022

通过自修剪学习双模式语音识别模型

该研究旨在通过 Omni-sparsity supernet 方法联合训练一个紧凑稀疏的流式 ASR 模型和一个大型密集的非流式服务器模型，进而提高现有 ASR 模型的性能。

Jul, 2022

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

动态 ASR 路径：多语音 ASR 模型高效剪枝的自适应遮罩方法

本文提出了一种自适应掩蔽方法，用于高效地修剪多语言自动语音识别模型，并展示了该方法在目标为稀疏的单语言模型时的优势，同时减少了语言特定修剪的需求。

Sep, 2023

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

自动语音识别的动态稀疏神经网络

本文介绍了动态稀疏神经网络 (DSNN) 技术，该技术能够在训练后根据需要在运行时即时切换到任何预定义的稀疏度配置，有效地解决了自动语音识别 (ASR) 等场景中硬件资源限制和延迟要求不同的问题，实验结果表明，DSNN 模型的表现与单一稀疏度网络的表现相当。

May, 2020

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024