随机投影量化器的自监督学习用于语音识别

ICMLFeb, 2022

随机投影量化器的自监督学习用于语音识别

Self-supervised Learning with Random-projection Quantizer for Speech Recognition

Chung-Cheng Chiu, James Qin, Yu Zhang, Jiahui Yu, Yonghui Wu

TL;DR论文介绍了一种针对语音识别的自监督学习方法，通过使用随机投影量化器生成离散标签，从而学习模型预测被屏蔽掉的语音信号，并在不更新随机初始化矩阵和码本的情况下实现。通过实验，该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率，并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟，在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。

Abstract

We present a simple and effective self-supervised learning approach for speech recognition. The approach learns a model to predict the masked speech signals, in the form of discrete labels generated with a random

self-supervised learning speech recognition random-projection quantizer librispeech streaming models

发现论文，激发创造

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

利用自监督量化神经网络实现无监督的音素和单词分割

本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法，并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。

Dec, 2020

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

开放式实现与研究最佳音质要求用于语音处理

自学习（SSL）在多种语音任务中被证明是有用的。然而，这些方法通常在数据、内存和计算资源方面要求非常高。BERT 基于随机投影量化器的语音预训练 (BEST-RQ) 是一种 SSL 方法，在自动语音识别（ASR）上表现出色，同时比其他 SSL 方法（如 wav2vec 2.0）更简单。尽管 BEST-RQ 表现出色，但原文缺乏细节，比如预训练中使用的 GPU/TPU 时长以及没有官方易于使用的开源实现。此外，除了 ASR 和语音翻译之外，BEST-RQ 还没有在其他下游任务上进行评估。在这项工作中，我们描述了随机投影量化器的重新实现，并在四个下游任务上与 wav2vec 2.0 进行了初步研究比较。我们讨论了我们实现的细节和差异。我们证明了随机投影量化器可以实现与 wav2vec 2.0 相似的下游性能，同时训练时间减少了两倍以上。

May, 2024

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

无监督语音表征池化技术基于向量量化

本文介绍了一种新的汇集方法，通过向量量化可以将声学表示压缩为具有相似声学特性的向量，从而通过对各种下游任务进行评估，比较了我们的方法和监督汇集方法。

Apr, 2023

文本识别的自我监督预训练

本文研究了文档文本识别的自监督预训练方法，探索了利用未标记数据的方法，并提出了基于掩码标签预测的自监督预训练方法，以及联合嵌入方法和模型崩溃预防技术。通过在历史手写和历史印刷数据集上的实验表明，自监督预训练在目标领域数据上非常有效，但在与之密切相关的领域上的迁移学习上却表现不佳。

May, 2024