评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距

Sep, 2023

评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距

Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments

Philippe Gonzalez, Tommy Sonne Alstrøm, Tobias May

TL;DR通过引入参考模型以作为测试条件困难性的代理，本研究提出了一个泛化性能评估框架，旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证，准确估计了泛化间隙，发现对于 FFNN、Conv-TasNet、DCCRN 和 MANNER 等模型而言，匹配语音条件下的性能最好，而在不匹配条件下，性能明显下降，甚至不如基于 FFNN 的系统。

Abstract

The acoustic variability of noisy and reverberant speech mixtures is influenced by multiple factors, such as the spectro-temporal characteristics of the target speaker and the interfering noise, the signal-to-noise ratio (SNR) and the room characteristics. This large variability poses

acoustic variability generalization assessment speech enhancement feedforward neural network generalization gap

发现论文，激发创造

基于扩散的用于配对和不匹配条件下的语音增强方法及基于 Heun 抽样器的应用

通过使用多个数据库来模拟不匹配的声学条件，我们系统评估了基于扩散模型的语音增强模型的泛化性能，并表明在匹配和不匹配条件下，所提出的系统相比最先进的判别模型在性能上更优。我们还发现，在语音增强中，基于 Heun 的采样器以较小的计算成本实现了更好的性能。

Dec, 2023

重新思考 ASR 中的评估：我们的模型足够健壮吗？

研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值，发现噪声增强有助于提高模型的泛化性能，并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现，最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。

Oct, 2020

混合不变训练下的单声道语音增强技术用于自动识别真实嘈杂语音

本文提出了一个改进的训练框架，用于训练单声道神经增强模型，以提高鲁棒语音识别的性能。该框架利用现有混合不变训练准则，扩展了未配对的干净语音和真实嘈杂数据，提高了从真实嘈杂语音中分离出来的语音质量，并通过处理和未处理信号的混合来缓解处理伪影。该方法在单通道 CHiME-3 真实测试集上进行实验证明，在不重新训练扭曲数据的情况下，与在监督模式下使用不匹配的模拟数据或在无监督模式下使用匹配的真实数据训练的增强系统相比，相对 WER 减少了 16% 到 39%。

May, 2022

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

针对语音识别的房间脉冲响应估计的改进

本研究提出了一种基于生成敌对网络（GAN）的结构，通过编码反射语音中的 RIR 特征并构建 RIR，使用新颖的能量衰减缓解损失来优化模型，从而提高自动语音识别（ASR）系统的性能，实验证明该模型在声学基准测试和 ASR 评估任务中都比现有模型表现更好。

Nov, 2022

通过参数的 GSNR 解析神经网络良好泛化的原因

本文利用深度神经网络的斜率噪声比率（GSNR）提出了新的模型参数研究视角，建立了模型参数的 GSNR 和泛化差距之间的定量关系，并展示了相对于浅层模型，DNNs 的梯度下降优化动态自然产生大 GSNR，这可能是 DNNs 出色的泛化能力的关键。

Jan, 2020

Mind the Gap: 评估神经语言模型的时间泛化能力

研究表明，Transformer-XL 语言模型在预测超出其训练期的未来话语时，性能会随着时间的推移而逐渐降低。基于此，提出了动态语言建模的思路，并通过不断更新知识来缓解性能退化问题。因此，应重新思考我们目前培训和评估语言模型的方法，并发展出适应我们日益变化和非稳定的世界的自适应语言模型。

Feb, 2021

用于稳健的 DNN-HMM 远场语音识别的污染语音训练方法

采用三种方法改进 DNN-HMM 系统的语音识别技术，包括使用不对称上下文窗口、近距离监督和近距离预训练，实验结果表明这三种方法的使用优势显着，与基线系统相比错误率降低了 15％。

Oct, 2017

评估大型语言模型在语言变异维度上的性能：一项跨语言泛化的系统性调查

大语言模型在面对未知的相关语言和方言时会表现出性能下降现象，本论文通过对语言距离的建模和分析，提供了关于模型健壮性和任务特性对性能下降的洞察，为评估和缓解性能下降问题提供了便利

Jun, 2024

RevRIR: 利用对比学习进行联合混响语音和室内冲激响应嵌入，应用于房间形状分类

该论文研究了室内指纹识别，通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构，可直接从语音中估算房间参数，通过对比损失函数将语音和声学响应联合嵌入，通过在预训练和微调阶段的训练实现具体的分类任务，并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。

Jun, 2024