探究用于端到端语音识别的统计表示
本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习,对音素和字母、不同发音特征进行了比较,并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。
Jul, 2019
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于Transformer编码器-解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到8位定点精度,将全精度模型的参数数量减小并将模型进一步压缩4倍,同时维持模型高精度。
Nov, 2019
使用自动语音识别提供的多个文本替代方案,采用简化的表述方式,通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人,提高了 Spoken Language Understanding 系统的性能。
Jun, 2021
本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型,发现其中间表征向量所包含的声学信息和语言信息内容,并研究了自动语音识别(ASR)微调对这些观察结果产生的影响,为此提出了一个修改方案,并证明其在低资源设置中提高了单词错误率的表现。
Jul, 2021
本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用,发现在一些 ASR benchmark corpora 上,使用预训练模型能够超越当前最先进的识别性能。其中,HuBERT 模型表现尤为突出,实验代码和模型参数已开源。
Oct, 2021
本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态,通过规范相关性分析和中心核对齐,发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性,而这种行为在 LSTM 架构中不会观察到,但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加,这些结果提供了神经体系结构对语音识别性能的作用的新见解,可用作构建更好的语音识别模型的指示器。
May, 2022
本文提出了一种基于Transformer的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
通过多重表示的大型语言模型的转移,我们研究了一种将语言学知识整合到端到端自动语音识别系统中的有效技术,证明了这种方法是传输单一表示的有效替代方案。
Sep, 2023
本文研究了变压器在预训练语言模型(PLMs)中作为自动语音识别(ASR)编码器的有效性,填补了这一领域的研究空白。研究表明,变压器在从文本数据中提取特征的能力可以有效转化为处理语音数据,从而显著提升ASR的性能。我们的实验结果显示,在多种ASR任务中,使用预训练语言模型的变压器能显著降低字符错误率(CER)和单词错误率(WER),尤其在需要深刻语义理解的场景中效果更为显著。
Sep, 2024