LSTM 语音模型通过字形对齐和发音学习

MMAug, 2020

LSTM 语音模型通过字形对齐和发音学习

LSTM Acoustic Models Learn to Align and Pronounce with Graphemes

Arindrima Datta, Guanlong Zhao, Bhuvana Ramabhadran, Eugene Weinstein

TL;DR本文介绍了一种基于图音分离的语音识别训练方法，并将其应用于四种印度语言的研究中。实验表明，使用该训练方法训练的模型在大型数据集上具有与基于音素模型相媲美的声学建模效果，并且产生的音频到图音对齐性能优秀，非常适合于实际应用。

Abstract

automated speech recognition coverage of the world's languages continues to expand. However, standard phoneme based systems require handcrafted lexicons that are difficult and expensive to obtain. To address this problem, we propose a training methodology for a grapheme-based speech re

automated speech recognition grapheme-based training methodology lstm networks real-world applications audio-to-grapheme alignments

发现论文，激发创造

多体裁广播转写的语音声学和书写系统

本文研究了英语自动语音识别系统中使用不同词典（phonetic、graphemic）的性能差异，考察了不同系统组合方法对性能的影响，最终发现混合使用 phonetic 和 graphemic 系统能获得更好的表现。

Feb, 2018

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

多语种图音融合 ASR 与大规模数据增强

本文介绍了一种单一的基于字形的 ASR 模型，采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习，能对七种语言进行无歧义的识别，并且比每个单一语言的 ASR 模型表现更佳。同时，我们还评估了多种数据增强的方法，并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言，还能大大提高 ASR 性能。

Sep, 2019

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

用于字形到音素转换的序列到序列神经网络模型

本文研究了基于具有副条件语言模型的生成的序列到序列翻译方法在不同类型任务中的适用性，包括有限词汇的 grapheme-to-phoneme 任务，并探讨了双向 LSTM 神经网络在这种方法中应用的优势。

May, 2015

基于端到端自动语音识别的音素与字形表示分析

本文分析了自动语音识别中使用的端到端神经网络模型的内部表示学习，对音素和字母、不同发音特征进行了比较，并发现不同特征在深度神经网络的不同层中的表示具有明显的一致性。

Jul, 2019

具有门控卷积神经网络的基于字母的语音识别

本研究提出了一种基于 ConvNet 和 CTC（或 ASG）的字母语音模型，实现了与 WSJ 中最佳字母系统的匹配，并在 LibriSpeech 上展现了近乎最先进的表现。

Dec, 2017

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014