基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

Jun, 2024

基于参数化和非参数化 CNN 的原始波形声学模型的语音误差分析

Phonetic Error Analysis of Raw Waveform Acoustic Models with Parametric and Non-Parametric CNNs

Erfan Loweimi, Andrea Carmantini, Peter Bell, Steve Renals, Zoran Cvetkovic

TL;DR在这篇论文中，我们分析了 TIMIT 语音识别任务中原始波形声学模型的错误模式，对传统的音素错误率指标进行了超越。我们将音素分为三组，计算了每个广义音素类别的音素错误率，并构建了每个类别的混淆矩阵，与 Filterbank 和 Wav2vec 2.0 系统的混淆模式进行了比较。我们的原始波形声学模型采用参数化（Sinc2Net）或非参数化 CNNs 和双向 LSTMs，并在 TIMIT 开发 / 测试集上实现了 13.7%/15.2% 的音素错误率，超过了文献中报告的原始波形模型的音素错误率。我们还研究了从 WSJ 进行的迁移学习对音素错误模式和混淆矩阵的影响，将音素错误率降低到了 11.8%/13.7%。

Abstract

In this paper, we analyse the error patterns of the raw waveform acoustic models in TIMIT's phone recognition task. Our analysis goes beyond the conventional phone error rate (PER) metric. We categorise the phones into three groups: {affricate, diphthong, fricative, nasal, plosive, semi-vowel, vowel, silence}, {consonant, vowel+, silence}, and {voiced, unvoi

raw waveform acoustic models phonetic error patterns confusion matrix transfer learning phonetic class

发现论文，激发创造

学前儿童语言发展测试中的伪词发音分类

本研究旨在通过使用不同方法进行语音分析，包括低级特征、说话者嵌入、音素和 ASR 音频模型，使用 VGG - 类 5 层 CNN 分类器，以便自动评估儿童的语言发展是否年龄适宜，证明如果精细调节音素模型，精度可以获得显著提高，并且 ASR 伴音模型提取的语音特征在此任务中表现最佳。

Jun, 2022

使用卷积神经网络从原始语音信号估计音素类条件概率

本文探究一种利用卷积神经网络（CNN），以原始语音信号作为输入、输出为音素类别条件概率估计的新方法，比较其在 TIMIT 音素识别任务中的表现，发现该方法可以获得与传统方法相当或更好的音素识别性能，表明 CNN 可以自动从原始语音信号中学习与音素分类相关的特征。

Apr, 2013

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

PAAPLoss：一种用于语音增强的音韵对齐声学参数损失

通过基于声学 - 语言学领域的前沿知识，使用神经网络估计器以及音素特定权重等手段，将语音增强模型优化为更接近于真实干净语音的声学参数值，实验结果证明此方法在时间域和时频域均可提升语音增强模型的评估指标，并提供了不同音素间声学参数改善情况的分析。

Feb, 2023

推动原始波形扬声器识别的极限

本文提出了一种基于原始波形的演讲者识别模型，它结合了机器学习和说话人认证的最新进展，其中包括 Res2Net 骨干模块和多层特征聚合。该模型具有很高的性能表现，可以应用于半监督学习场景中，即在只有少量标记训练数据和大量未标记训练数据的情况下，可用于说话人识别。

Mar, 2022

走向客观和可解释的语音障碍评估：基于 CNN 和 Transformer 的模型的比较分析

这项研究提出了一种基于自我监督的 Wav2Vec2 模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。

Jun, 2024

自动语音识别端到端神经模型的鲁棒性分析

本文研究了预训练神经模型在自动语音识别中的鲁棒性，并对 wav2vec2，HuBERT 和 DistilHuBERT 进行了鲁棒性分析，发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同，同时进行了层次分析以预测每层的学习，通过误差传播和对比清晰和嘈杂的数据，验证了 Pasad 等人的预测，并提出未来研究的有趣方向。

Aug, 2022

神经语音模型中的人类语言偏置: Wav2Vec2.0 中的音位分类和音律限制

探讨深度神经语音模型对语音学的了解，研究 Wav2Vec2 模型在解决音位法约束方面的交互作用，发现模型对有歧义的声音表现出对语音音位学上可接受的类别的偏好，并通过控制的刺激设计来定位模型中具体的语言知识。

Jul, 2024

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

原始波形的深度卷积神经网络

本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法，通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形，并在环境声音识别任务中取得了 15% 的性能提升，达到了使用对数 - 梅尔特征的模型的性能。

Oct, 2016