语音神经网络的训练方差和性能评估

Jun, 2016

语音神经网络的训练方差和性能评估

Training variance and performance evaluation of neural networks in speech

Ewout van den Berg, Bhuvana Ramabhadran, Michael Picheny

TL;DR本文首次对神经网络的自动语音识别训练中方案变化导致的方差进行了广泛的实证研究，结果强调文献中结果报道和解释的急需重新思考和评估。

Abstract

In this work we study variance in the results of neural network training on a wide variety of configurations in automatic speech recognition

neural network variance speech recognition empirical study literature

发现论文，激发创造

自动语音识别端到端神经模型的鲁棒性分析

本文研究了预训练神经模型在自动语音识别中的鲁棒性，并对 wav2vec2，HuBERT 和 DistilHuBERT 进行了鲁棒性分析，发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同，同时进行了层次分析以预测每层的学习，通过误差传播和对比清晰和嘈杂的数据，验证了 Pasad 等人的预测，并提出未来研究的有趣方向。

Aug, 2022

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

神经网络捕捉类人语音识别的成功与关键失败

本研究通过实验，评估了最先进的神经网络作为 “可计算的、优化的观察者” 在语音识别方面的表现，并发现了人类和人类机理学习中的不同之处，为听觉认知科学和工程之间建立更紧密的联系提供了启示。

Apr, 2022

近期神经欺骗对抗合成语音检测方法比较研究

本研究通过对后端神经网络与训练标准的比较，评估 ASVspoof 2019 逻辑访问任务的对策模型，发现随机初始种子会对模型性能造成显著影响，但平均池化和新的无超参数损失函数是比较优秀的技术。

Mar, 2021

语音和视觉系统中深度神经网络调查

该论文对视觉和语言领域中深度神经网络的最新架构、算法和系统进行了综述，并总结了在硬件限制平台上运行深度神经网络的主要挑战和最新进展，探讨了情感计算、智能交通和精准医学等领域中的新兴应用。

Aug, 2019

评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距

通过引入参考模型以作为测试条件困难性的代理，本研究提出了一个泛化性能评估框架，旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证，准确估计了泛化间隙，发现对于 FFNN、Conv-TasNet、DCCRN 和 MANNER 等模型而言，匹配语音条件下的性能最好，而在不匹配条件下，性能明显下降，甚至不如基于 FFNN 的系统。

Sep, 2023

重新思考 ASR 中的评估：我们的模型足够健壮吗？

研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值，发现噪声增强有助于提高模型的泛化性能，并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现，最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。

Oct, 2020

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020