分析端到端自动语音识别系统中的隐藏表示

NIPSSep, 2017

分析端到端自动语音识别系统中的隐藏表示

Analyzing Hidden Representations in End-to-End Automatic Speech Recognition Systems

Yonatan Belinkov, James Glass

TL;DR本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Abstract

Neural models have become ubiquitous in automatic speech recognition systems. While neural networks are typically used as acoustic models in more complex systems, recent studies have explored end-to-end

neural networks speech recognition end-to-end model ctc loss model interpretation

发现论文，激发创造

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

基于端到端自动语音识别的音素与字形表示分析

本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习，对音素和字母、不同发音特征进行了比较，并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。

Jul, 2019

端到端语音识别的神经表示洞察

本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态，通过规范相关性分析和中心核对齐，发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性，而这种行为在 LSTM 架构中不会观察到，但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加，这些结果提供了神经体系结构对语音识别性能的作用的新见解，可用作构建更好的语音识别模型的指示器。

May, 2022

基于深度学习的声学模型最新进展（更新）

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

具有门控卷积神经网络的基于字母的语音识别

本研究提出了一种基于 ConvNet 和 CTC（或 ASG）的字母语音模型，实现了与 WSJ 中最佳字母系统的匹配，并在 LibriSpeech 上展现了近乎最先进的表现。

Dec, 2017

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013