分析端到端自动语音识别系统中的隐藏表示
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习,对音素和字母、不同发音特征进行了比较,并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。
Jul, 2019
本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态,通过规范相关性分析和中心核对齐,发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性,而这种行为在 LSTM 架构中不会观察到,但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加,这些结果提供了神经体系结构对语音识别性能的作用的新见解,可用作构建更好的语音识别模型的指示器。
May, 2022
本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解,讨论了可以有效利用可变长度上下文信息的语音识别模型,如 RNN、CNN 及其与其他模型的组合,以及优化了端对端性能的声学模型和鲁棒性训练策略,同时讨论了语音增强和分离等建模技术。
Apr, 2018
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
通过神经网络的层级表达,在多个任务中评估自动语音识别声学模型的性能变化和目标任务,我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示,基于神经网络的声学模型拥有异质信息,似乎与音素识别没有相关性,例如情感、情绪或说话人身份,而低层隐藏层总体上对信息结构有用,而上层则倾向于删除对音素识别无用的信息。
Feb, 2024
本研究提出了一种基于 ConvNet 和 CTC(或 ASG)的字母语音模型,实现了与 WSJ 中最佳字母系统的匹配,并在 LibriSpeech 上展现了近乎最先进的表现。
Dec, 2017
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。
Mar, 2013