使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化

Jun, 2024

使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化

One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model

Zhaoqing Li, Haoning Xu, Tianzi Wang, Shoukang Hu, Zengrui Jin...

TL;DR我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法，使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统，而无需单独训练和存储个别目标系统。实验证明，与等复杂度的单独训练系统相比，一个全能模型中压缩的多个 ASR 系统的字错误率（WER）相当，或更低至 1.01％绝对值（6.98％相对值）。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上，最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍，没有引起统计上显著的 WER 增加。

Abstract

We propose a novel one-pass multiple asr systems joint compression and quantization approach using an all-in-one →

multiple asr systems compression quantization neural model word error rate

发现论文，激发创造

基于两次解码和交叉自适应的端到端 Conformer 和混合 TDNN ASR 系统的系统组合

本文研究了多通道重评分和基于交叉适配的混合 TDNN 和 Conformer E2E ASR 系统的组合方法，并在 Switchboard 语料库上进行了实验，结果表明使用两种组合方法得到的组合系统胜过单个系统，其中使用多通道重评分得到的最佳组合系统在 NIST Hub5'00，Rt03 和 Rt02 的评估数据上相对于独立的 Conformer 系统实现了 2.5％到 3.9％的绝对（22.5% 到 28.9% 相对）的单词错误率（WER）降低。

Jun, 2022

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

加强量化的端到端 ASR 模型通过个性化

使用 4-bit 正态浮点数量化和低秩自适应方法相结合的个性化量化模型策略，大幅降低了模型大小并显著减少了词错误率。

Sep, 2023

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

基于深度神经网络的端到端优化语音编码

该论文介绍了一种基于深度神经网络的语音编码器，它实现了从原始语音数据到压缩、量化、熵编码和解压缩的端到端优化，无需手动特征工程，并在不同的比特率下表现与 AMR-WB 标准相当，同时能够在 3.8GhZ 英特尔 CPU 上实时运行。

Oct, 2017

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024