Transformer、卷积和循环神经网络在音素识别上的比较

Oct, 2022

Transformer、卷积和循环神经网络在音素识别上的比较

A Comparison of Transformer, Convolutional, and Recurrent Neural Networks on Phoneme Recognition

Kyuhong Shim, Wonyong Sung

TL;DR本文探讨了 CNN、RNN、Transformer 及 Conformer 模型在语音识别方面的应用，对不同架构的精度进行了比较和分析，发现 Transformer 和 Conformer 模型在输入帧的长程可达性方面表现优异。

Abstract

phoneme recognition is a very important part of speech recognition that requires the ability to extract phonetic features from multiple frames. In this paper, we compare and analyze cnn, →

phoneme recognition cnn rnn transformer conformer

发现论文，激发创造

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

基于 Transformer 与 RNN 的语音应用比较研究

本文章研究了一种新兴的序列到序列模型 ——Transformer，并将它与传统 RNN 模型在 15 项 ASR、1 项多语言 ASR、1 项 ST 和 2 项 TTS 基准测试中进行了比较和分析，发现了各种训练技巧以及 Transformer 在各项任务中带来的显著性能优势，最终实验结果表明 Transformer 在 13/15 项 ASR 基准测试中比 RNN 具有惊人的优越性能。

Sep, 2019

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

面向文本独立说话人识别的帧级别说话人特征向量及端到端模型分析

本文提出了一种基于卷积神经网络（CNN）的说话人识别模型，可以提取鲁棒的说话者嵌入，并通过 TIMIT 数据集对其进行了训练和多个代理任务来研究网络在区分语音输入和声音身份方面的能力，其中发现该网络更擅长区分相似的语音类别而不是单个音素，这一帧级别的表示法还允许我们在帧级别上分析网络，并具有提高说话人识别的其他分析的潜力。

Sep, 2018

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

Transformer-Transducer: 自注意力端到端语音识别

本文研究了使用 Transformer 网络来实现端到端语音识别，提出使用 VGGNet 结合因果卷积来降低计算复杂度，同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验，该方法相比于基于 LSTM/BLSTM 的神经输入转换器，获得了更好的识别效果，并实现了流式处理。

Oct, 2019