端到端语音识别的分段循环神经网络

Mar, 2016

端到端语音识别的分段循环神经网络

Segmental Recurrent Neural Networks for End-to-end Speech Recognition

Liang Lu, Lingpeng Kong, Chris Dyer, Noah A. Smith, Steve Renals

TL;DR研究了段落循环神经网络在端到端声学建模中的应用，不依赖于外部系统提供特征或分割边界，通过神经网络进行特征提取，具有自我完备性，可实现端到端训练，实验表明在语音识别领域中表现良好。

Abstract

We study the segmental recurrent neural network for end-to-end acoustic modelling. This model connects the segmental conditional random field (CRF) with a recurrent neural network (RNN) used for →

segmental recurrent neural network acoustic modelling feature extraction conditional random field speech recognition

发现论文，激发创造

基于 CTC 和分段 CRF 的语音识别多任务学习

本研究中，我们使用相同的递归神经网络编码器对 SCRF 和 CTC 方法进行多任务学习，优化它们的插值损失值，发现这样的学习目标可以显著提高识别准确度，并且还表明 CTC 方法可以用于预训练 RNN 编码器，这有助于提高学习联合模型的收敛速度。

Feb, 2017

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

分段循环神经网络

引入了分段循环神经网络（SRNN），并使用全局半马尔可夫条件随机场来集成本地兼容性分数，从而在手写识别和汉语分词 / 词性标注方面获得了显着更高的准确性。

Nov, 2015

端到端注意力大词汇语音识别

该研究研究了一种更直接的方法，即使用循环神经网络来替换隐马尔可夫模型，从而在字符级别直接执行序列预测，通过内置的注意力机制自动学习输入特征与期望字符序列之间的对齐。

Aug, 2015

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

使用双向递归深度神经网络进行大词汇连续语音识别的一次通过

本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法，并通过一种改进的前缀搜索解码算法，使得该方法完全不依赖于基于 HMM 的架构，实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中，取得了较为具有竞争力的错误率，并且证明了双向网络的重要性。

Aug, 2014