本论文提出一种简单的端对端语音识别模型,用卷积神经网络基于声学模型和图解码相结合,通过输出字母实现语音转录,无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练,不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率,并在原始波形上得到有希望的结果。
Sep, 2016
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本文提出了一种基于卷积神经网络的语音识别方法,相对于传统的基于循环神经网络的模型使用更少的特征提取步骤,并在多项测试中取得了当下最佳的表现。
Dec, 2018
本文分析了基于卷积和循环层、使用连结时序分类(CTC)损失函数训练的深度端到端模型所学习的语音表示,并评估模型不同层次的表示在预测电话标签方面的质量,以此为基础探讨了端到端模型的重要方面和设计选择。
Sep, 2017
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
本文提出了一种基于 CTC 的全神经网络语音识别器的设计方法,包括新的符号存储库、基于迭代的 CTC 方法、稳定化方法和初始化方法等,使用 NIST 2000 会话电话测试集进行了评估,结果表明该系统明显超过了先前发布的相似系统的性能,无需使用外部语言模型和解码技术。
本论文研究了基于 CTC 准则的声音到单词模型的问题,并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案,最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。
Mar, 2018
通过字级别的单词网络,我们提出了一种直接生成单词嵌入的序列模型,这种直接生成单词的方法可以有效提高语音识别中的词义判断准确率,并且可以更高效地进行训练和推理。
Jun, 2019
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 LibriSpeech-{100h,960h} 和 TEDLIUM2 上实验结果表明,与标准 CTC 模型和其他竞争模型相比,所提出的模型具有优越性能。
Oct, 2021
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。