语音神经网络的训练方差和性能评估
本文研究了预训练神经模型在自动语音识别中的鲁棒性,并对 wav2vec2,HuBERT 和 DistilHuBERT 进行了鲁棒性分析,发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同,同时进行了层次分析以预测每层的学习,通过误差传播和对比清晰和嘈杂的数据,验证了 Pasad 等人的预测,并提出未来研究的有趣方向。
Aug, 2022
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
本研究通过实验,评估了最先进的神经网络作为 “可计算的、优化的观察者” 在语音识别方面的表现,并发现了人类和人类机理学习中的不同之处,为听觉认知科学和工程之间建立更紧密的联系提供了启示。
Apr, 2022
本研究通过对后端神经网络与训练标准的比较,评估 ASVspoof 2019 逻辑访问任务的对策模型,发现随机初始种子会对模型性能造成显著影响,但平均池化和新的无超参数损失函数是比较优秀的技术。
Mar, 2021
该论文对视觉和语言领域中深度神经网络的最新架构、算法和系统进行了综述,并总结了在硬件限制平台上运行深度神经网络的主要挑战和最新进展,探讨了情感计算、智能交通和精准医学等领域中的新兴应用。
Aug, 2019
通过引入参考模型以作为测试条件困难性的代理,本研究提出了一个泛化性能评估框架,旨在准确评估具有嘈杂和混响特性的语音增强系统。通过在多个语音、噪声和 BRIR 数据库之间进行交叉验证,准确估计了泛化间隙,发现对于 FFNN、Conv-TasNet、DCCRN 和 MANNER 等模型而言,匹配语音条件下的性能最好,而在不匹配条件下,性能明显下降,甚至不如基于 FFNN 的系统。
Sep, 2023
研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值,发现噪声增强有助于提高模型的泛化性能,并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现,最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。
Oct, 2020
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018
本文研究语音合成技术,并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性,在大规模众包评估中,发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时,使用相同的自回归声学模型进行评估,Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是,组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。
Apr, 2018
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020