通过码本查找恢复洁净语音表示以提高噪声鲁棒性 ASR 的 Wav2code

Apr, 2023

通过码本查找恢复洁净语音表示以提高噪声鲁棒性 ASR 的 Wav2code

Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR

Yuchen Hu, Chen Chen, Qiushi Zhu, Eng Siong Chng

TL;DR本文提出了一种名为 Wav2code 的自监督框架，用于实现无失真的一般性语音增强，以提高在各种噪声条件下的语音识别性能。

Abstract

automatic speech recognition (ASR) has gained a remarkable success thanks to recent advances of deep learning, but it usually degrades significantly under real-world noisy conditions. Recent works introduce speech enhan

automatic speech recognition speech enhancement self-supervised learning transformer-based code predictor noise robustness

发现论文，激发创造

基于监督引导的编码本，用于语音预训练中的遮蔽预测

本论文提出了两种监督引导的码本生成方法，分别是使用混合 ASR 系统解码并生成音素级别对齐（命名为 PBERT）或者使用从端到端 CTC 模型中提取的受监督语音特征进行聚类（命名为 CTC 聚类），以提高自动语音识别性能和预训练效率。实验结果表明，我们的方法在各种 SSL 和自训练基线中具有显著的优越性，最高 WER 相对降低了 17.0％。我们的预训练模型在非 ASR 语音任务中也表现出良好的可迁移性。

Jun, 2022

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

使用未经配对的语音数据为端到端 ASR 模型预训练 Transformer 解码器

本文在多任务学习框架下，提出了一种使用新型无配对语音数据的预训练技术 Speech2C，通过声学单元 (pseudo codes) 派生自离线聚类模型，提出两个预训练任务来训练 “编码器 - 解码器” 网络，其一是像 HuBERT 模型一样通过掩蔽语言模型在编码器输出中预测 pseudo codes，其二则是让解码器自回归地重构 pseudo codes。此方法能够在 LibriSpeech 语料库上相对于没有解码器预训练的方法将字词错误率 (WER) 降低 19.2%，并且在 10h 和 100h 的微调子集上显著优于最先进的 wav2vec 2.0 和 HuBERT。

Mar, 2022

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达 37%），还在未知口音上获得了最高 5% 的相对改进。同时，我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023

AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

在这项工作中，我们介绍了 AV2Wav，这是一种基于重新综合的视听语音增强方法，可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集，然后在这个子集上训练扩散模型，该模型以 AV-HuBERT 的连续语音表示为条件生成波形，并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务，该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线，并且在听力测试中的质量接近目标语音。

Sep, 2023

引入噪声稳健性到预训练自动语音识别

提出了一种新的方法，即 Cleancoder 预处理架构，从 Conformer ASR 模型中提取隐藏激活，并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图，我们证明 Cleancoder 可以滤除语音中的噪声，从而改善了下游模型在嘈杂环境中的总词错误率（WER）。

Sep, 2023

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

自适应的自监督语音表示模型条件下的抗噪零样本语音合成

基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而，当参考语音包含噪声时，这种方法的语音合成质量会降低。本文中，我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中，并使用带噪声的参考语音对其进行微调，同时采用了语音增强前端以进一步提高性能。通过客观和主观评估，我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性，并且与语音增强相结合有效地工作。

Jan, 2024

深度上下文化声学表示用于半监督语音识别

我们提出了一种新的半监督自动语音识别方法，利用表示学习从无标注音频数据中重建滤波器组特征，并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统，实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。

Dec, 2019