探究用于端到端语音识别的统计表示
本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态,通过规范相关性分析和中心核对齐,发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性,而这种行为在 LSTM 架构中不会观察到,但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加,这些结果提供了神经体系结构对语音识别性能的作用的新见解,可用作构建更好的语音识别模型的指示器。
May, 2022
本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习,对音素和字母、不同发音特征进行了比较,并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。
Jul, 2019
利用奇异值典型相关分析 (SVCCA),我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性,增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论,我们提出了解除对低资源语言的数据限制,将其与语言相关的高资源语言相结合的方法,以提供更有效的多语言端到端语音翻译。
Oct, 2023
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
本文分析了基于卷积和循环层、使用连结时序分类(CTC)损失函数训练的深度端到端模型所学习的语音表示,并评估模型不同层次的表示在预测电话标签方面的质量,以此为基础探讨了端到端模型的重要方面和设计选择。
Sep, 2017
本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型,发现其中间表征向量所包含的声学信息和语言信息内容,并研究了自动语音识别(ASR)微调对这些观察结果产生的影响,为此提出了一个修改方案,并证明其在低资源设置中提高了单词错误率的表现。
Jul, 2021
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用,发现在一些 ASR benchmark corpora 上,使用预训练模型能够超越当前最先进的识别性能。其中,HuBERT 模型表现尤为突出,实验代码和模型参数已开源。
Oct, 2021
通过神经网络的层级表达,在多个任务中评估自动语音识别声学模型的性能变化和目标任务,我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示,基于神经网络的声学模型拥有异质信息,似乎与音素识别没有相关性,例如情感、情绪或说话人身份,而低层隐藏层总体上对信息结构有用,而上层则倾向于删除对音素识别无用的信息。
Feb, 2024
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019