语音处理的线性复杂度自监督学习

Jul, 2024

语音处理的线性复杂度自监督学习

Linear-Complexity Self-Supervised Learning for Speech Processing

Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya

TL;DR本文研究了一种线性复杂度的自监督学习（SSL）上下文编码器，通过改进SummaryMixing模型，在MP3S基准测试的下游任务中达到更好或相等的性能，将wav2vec 2.0模型的预训练时间和峰值VRAM分别减少了18%和23%，使得155M wav2vec 2.0模型的预训练在一周内由4个Tesla A100 GPU完成。

Abstract

self-supervised learning (SSL) models usually require weeks of pre-training with dozens of high-end GPUs. These models typically have a multi-headed self-attention (mhsa) context encoder. However, →

发现论文，激发创造

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

Recycle-and-Distill: 基于注意力映射重用和掩码蒸馏的Transformer语音SSL模型通用压缩策略

本研究提出基于 Transformer 的语音自监督学习模型压缩方法，包括重用注意力矩阵并采用新型蒸馏策略。我们的通用压缩策略可在 SUPERB 基准测试中实现 7.72％的音素错误率和 9.96％的单词错误率。

May, 2023

MiniSUPERB：自监督语音模型轻量级基准测试

本研究提出了MiniSUPERB，该基准可以有效评估自监督语音模型的能力，同时极大地降低了计算成本。

May, 2023

语音自监督表示基准测试：我们做得对吗？

本文研究了自我监督学习在语音任务中的应用，特别是其在下游任务中的性能表现和解码器架构的影响。结果发现，使用不同的解码器架构可能会导致表现结果的显著变化，使用局限的解码器也可能会适得其反地增加SSL模型的大小。

Jun, 2023

降低自监督学习门槛：使用学术计算资源进行 HuBERT 预训练

本研究的目标是将自监督学习模型优化为适应学术限制，它们只需要使用8个GPU而不是32个GPU就可以实现与原始模型相近的性能，并探索了一种使用ASR模型跳过第一次预训练迭代的半监督路线。

Jun, 2023

Sumformer: 一种用于语音识别的线性复杂度替代自注意力机制的算法

本文提出了一种自注意代替算法——摘要混合（Summary Mixing），它使用时间步骤的平均向量对整个话语进行总结，并在最先进的语音识别模型中引入这一方法，降低了训练和推理时间达27％，将内存预算减少了一半。

Jul, 2023

快速-HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入ASR架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在Librispeech和Tedlium数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

自我监督语音模型界面设计

提出了一种连接上游和下游模型的接口，通过使用卷积接口设计，其深度与上游模型的深度按对数比例计算，在许多任务上始终优于其他接口设计。

Jun, 2024

基于BEST-RQ的线性复杂度注意力替代方法分析

本研究针对自监督学习中的多头自注意力计算和内存消耗过大的问题，探讨了几种具有线性复杂度的新替代方案，包括HyperMixing、Fastformer、SummaryMixing和Mamba。研究结果表明，这些线性替代方案在保持竞争性性能的同时，平均减少了20%至60%的内存消耗，并在处理输入序列时速度提升了7%至65%。

Sep, 2024