使用联合变分自编码器改进远场语音识别

Apr, 2022

使用联合变分自编码器改进远场语音识别

Improved far-field speech recognition using Joint Variational Autoencoder

Shashi Kumar, Shakti P. Rath, Abhishek Pandey

TL;DR本文主要研究匹配情况下的语音增强问题，提出了一种基于联合 VAE 映射的方法，将远场的语音特征转换为近距离的特征，实验结果表明，改进的方法比 DA 方法和直接使用远场特征训练 AM 的方法分别在 WER 上提高了 2.5% 和 3.96%。

Abstract

automatic speech recognition (ASR) systems suffer considerably when source speech is corrupted with noise or room impulse responses (RIR). Typically, speech enhancement is applied in both mismatched and

automatic speech recognition speech enhancement matched scenario training denoising autoencoder vae

发现论文，激发创造

基于变分自编码数据增强的无监督领域自适应技术，用于提高语音识别鲁棒性

本文采用基于自动选择属性变化的方法，通过对抗性学习和数据增强对源域语音数据进行协同变换以解决在鲁棒语音识别中遇到的训练 - 测试领域差异问题，实验表明将绝对词语误差率最多降低 35%。

Jul, 2017

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

基于频域自回归建模的语音增强

通过自回归（AR）模型在子带语音信号的频域中分离包络和载波部分，提出了一种改善语音质量和 ASR 性能的语音去混响统一框架，设计了基于双路径长短期记忆（DPLSTM）模型的神经网络结构，实现改善了子带包络和载波组件，进一步通过联合学习网络权重来优化 ASR 性能，该方法在 REVERB 挑战数据集和 VOiCES 数据集上相较基线系统以及其他去混响基准方法显示出显著的性能改善（基线系统上相对提升率为 10-24%），主观听测试进一步突显了音频还原质量的提升。

Sep, 2023

一种用于语音增强的循环变分自编码器

本文提出一种基于递归变分自编码器（RVAE）的语音增强的生成方法，通过与非负矩阵分解噪声模型相结合，仅使用干净的语音信号训练深度生成语音模型，并在测试时微调 RVAE 的编码器以近似给出噪声语音观测下的潜在变量的分布。与基于前馈完全连接体系结构的先前方法相比，所提出的递归深度生成语音模型引入了潜在变量上的后期时间动态，其在语音增强结果方面表现更好。

Oct, 2019

混合不变训练下的单声道语音增强技术用于自动识别真实嘈杂语音

本文提出了一个改进的训练框架，用于训练单声道神经增强模型，以提高鲁棒语音识别的性能。该框架利用现有混合不变训练准则，扩展了未配对的干净语音和真实嘈杂数据，提高了从真实嘈杂语音中分离出来的语音质量，并通过处理和未处理信号的混合来缓解处理伪影。该方法在单通道 CHiME-3 真实测试集上进行实验证明，在不重新训练扭曲数据的情况下，与在监督模式下使用不匹配的模拟数据或在无监督模式下使用匹配的真实数据训练的增强系统相比，相对 WER 减少了 16% 到 39%。

May, 2022

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

D4AM：用于下游声学模型的通用去噪框架

在嘈杂环境中，声学模型的性能明显下降。本研究提出了一种用于各种下游声学模型的通用降噪框架 D4AM，通过特定声学模型和相应的分类目标，用反向梯度调整语音增强模型并考虑回归目标作为辅助损失，该方法可以直接估计合适的权重系数，从而避免了额外的训练成本，并有效改善各种未知声学模型的性能。该框架在 Google ASR API 上进行实验，相对于直接使用嘈杂输入，取得了 24.65% 的相对 WER 降低，是首个实现回归和分类目标有效组合的通用预处理器适用于各种未知 ASR 系统的工作。

Nov, 2023

联合语音识别和音频字幕

为了更好地解释语音样本中的背景噪声，并对内容进行全面理解，我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模，并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。

Feb, 2022

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019