Transformer、卷积和循环神经网络在音素识别上的比较
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。
Mar, 2013
本文章研究了一种新兴的序列到序列模型 ——Transformer,并将它与传统 RNN 模型在 15 项 ASR、1 项多语言 ASR、1 项 ST 和 2 项 TTS 基准测试中进行了比较和分析,发现了各种训练技巧以及 Transformer 在各项任务中带来的显著性能优势,最终实验结果表明 Transformer 在 13/15 项 ASR 基准测试中比 RNN 具有惊人的优越性能。
Sep, 2019
本文分析了基于卷积和循环层、使用连结时序分类(CTC)损失函数训练的深度端到端模型所学习的语音表示,并评估模型不同层次的表示在预测电话标签方面的质量,以此为基础探讨了端到端模型的重要方面和设计选择。
Sep, 2017
本文提出了一种基于卷积神经网络(CNN)的说话人识别模型,可以提取鲁棒的说话者嵌入,并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力,其中发现该网络更擅长区分相似的语音类别而不是单个音素,这一帧级别的表示法还允许我们在帧级别上分析网络,并具有提高说话人识别的其他分析的潜力。
Sep, 2018
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021
本文研究了使用 Transformer 网络来实现端到端语音识别,提出使用 VGGNet 结合因果卷积来降低计算复杂度,同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验,该方法相比于基于 LSTM/BLSTM 的神经输入转换器,获得了更好的识别效果,并实现了流式处理。
Oct, 2019