使用卷积神经网络从原始语音信号估计音素类条件概率

Apr, 2013

Estimating Phoneme Class Conditional Probabilities from Raw Speech Signal using Convolutional Neural Networks

Dimitri Palaz, Ronan Collobert, Mathew Magimai.-Doss

TL;DR本文探究一种利用卷积神经网络（CNN），以原始语音信号作为输入、输出为音素类别条件概率估计的新方法，比较其在 TIMIT 音素识别任务中的表现，发现该方法可以获得与传统方法相当或更好的音素识别性能，表明 CNN 可以自动从原始语音信号中学习与音素分类相关的特征。

Abstract

In hybrid hidden markov model/artificial neural networks (HMM/ANN) automatic speech recognition (ASR) system, the phoneme class conditiona

发现论文，激发创造

本研究旨在探讨卷积神经网络和简单线性分类器在提取自然语音特征以进行语音识别方面的应用，而该方法已被证明在音素识别模型和大规模连续语音识别时十分有效。

Dec, 2014

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

本文研究了如何使用卷积神经网络对未见过的广播节目语音识别性能进行预测，并比较了传统基于回归的性能预测方法和基于卷积神经网络的新策略。该研究尤其关注了音频信号和 ASR 文本样本的联合使用对预测准确性的影响，并证实了基于卷积神经网络的预测能够非常准确地预测广播节目中的语音识别错误率分布。

Apr, 2018

使用复杂的 Gabor 滤波器和深度神经网络的方法，在 TIMIT 音素识别任务中取得了最佳表现，同时保持可解释性。

Feb, 2020

本文探讨了 CNN、RNN、Transformer 及 Conformer 模型在语音识别方面的应用，对不同架构的精度进行了比较和分析，发现 Transformer 和 Conformer 模型在输入帧的长程可达性方面表现优异。

Oct, 2022

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

本文提出了一种基于并行卷积层的方法，在特征提取单元中利用多个时间分辨率来共同训练 LSTM 分类神经网络。该方法可用于处理原始语音数据的情感识别任务，并可以达到使用手工制作特征训练 CNN 的性能水平。

Apr, 2019