开放式实现与研究最佳音质要求用于语音处理

May, 2024

开放式实现与研究最佳音质要求用于语音处理

Open Implementation and Study of BEST-RQ for Speech Processing

Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève

TL;DR自学习（SSL）在多种语音任务中被证明是有用的。然而，这些方法通常在数据、内存和计算资源方面要求非常高。BERT 基于随机投影量化器的语音预训练 (BEST-RQ) 是一种 SSL 方法，在自动语音识别（ASR）上表现出色，同时比其他 SSL 方法（如 wav2vec 2.0）更简单。尽管 BEST-RQ 表现出色，但原文缺乏细节，比如预训练中使用的 GPU/TPU 时长以及没有官方易于使用的开源实现。此外，除了 ASR 和语音翻译之外，BEST-RQ 还没有在其他下游任务上进行评估。在这项工作中，我们描述了随机投影量化器的重新实现，并在四个下游任务上与 wav2vec 2.0 进行了初步研究比较。我们讨论了我们实现的细节和差异。我们证明了随机投影量化器可以实现与 wav2vec 2.0 相似的下游性能，同时训练时间减少了两倍以上。

Abstract

self-supervised learning (ssl) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. BERT-based Speech pre-Tra

self-supervised learning ssl best-rq automatic speech recognition wav2vec 2.0

发现论文，激发创造

一个实验研究：评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

我们提出了一种新的适用于文本到语音（TTS）模型的模型架构，将预训练的自监督学习（SSL）语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合，通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明，该模型表现明显不佳，我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关，我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。

Dec, 2023

随机投影量化器的自监督学习用于语音识别

论文介绍了一种针对语音识别的自监督学习方法，通过使用随机投影量化器生成离散标签，从而学习模型预测被屏蔽掉的语音信号，并在不更新随机初始化矩阵和码本的情况下实现。通过实验，该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率，并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟，在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。

Feb, 2022

加强量化的端到端 ASR 模型通过个性化

使用 4-bit 正态浮点数量化和低秩自适应方法相结合的个性化量化模型策略，大幅降低了模型大小并显著减少了词错误率。

Sep, 2023

适用于每个用户和预算的模型：无标签和个性化的混合精度量化

最近的自动语音识别（ASR）中取得的进展产生了大型 AI 模型，这些模型在移动设备上部署变得不切实际。模型量化可以产生压缩的通用模型，但这些模型可能只能在特定领域中部署。我们表明在量化过程中可以个性化地对 ASR 模型进行个性化调整，仅依赖于目标领域的少量未标记样本。为此，我们提出了 myQASR，一种混合精度量化方法，它可以在不需要微调的情况下为不同用户生成量化方案，以适应任何内存需求。myQASR 通过分析全精度激活值来自动评估网络层的量化灵敏度，我们能够为任何预定的内存预算生成个性化的混合精度量化方案。大规模 ASR 模型的结果表明 myQASR 如何提高特定性别、语言和说话者的性能。

Jul, 2023

语言任务后训练量化方法的实证评估

通过分别实验评估了三种量化方法（LQ，ACIQ 和 OCS）对 BERT-Base 和 BERT-Large, 研究表明 OCS 可以将 BERT-Base 和 BERT-Large 量化为 3 位，并在 GLUE 基准测试中保持 98％和 96％的性能，为资源受限环境中模型调整提供指导。

Oct, 2022

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

理解自监督模型作为跨语言特征提取器的量化方法

通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Nov, 2023

使用低比特量化来实现高效语音表示学习

我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。

Dec, 2022

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

重新发现使用哈希随机投影以高效量化上下文化句子嵌入

本研究提出了一种利用随机超平面投影和量化技术，减小预处理数据的存储和带宽需求，从而使得边缘设备可以高效地进行推理和训练，并且在多语言句子分类任务中保持了良好的性能。

Mar, 2023