多语言序列到序列语音识别：架构，转移学习和语言建模

Oct, 2018

多语言序列到序列语音识别：架构，转移学习和语言建模

Multilingual sequence-to-sequence speech recognition: architecture, transfer learning, and language modeling

Jaejin Cho, Murali Karthick Baskar, Ruizhi Li, Matthew Wiesner, Sri Harish Mallidi...

TL;DR本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Abstract

sequence-to-sequence (seq2seq) approach for low-resource asr is a relatively new direction in speech research. The approach benefits by performing model training without using lexicon and alignments. However, thi

sequence-to-sequence low-resource asr multi-lingual model transfer learning rnnlm

发现论文，激发创造

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

基于序列的多语言低资源语音识别

研究多语言和跨语言语音识别技术，通过使用基于序列的端到端方法，提高系统性能，并可跨语言适应新的语言和领域。

Feb, 2018

用单个 Transformer 实现多语言低资源语音端到端识别

本文利用单个 transformer 模型及语言符号，针对低资源语言进行多语言语音识别，相较于 SHL-MLSTM 具有较高的识别精度。

Jun, 2018

语言无关端到端自动语音识别的迁移学习与语言模型融合

本文探讨了一种更好的适应低资源语言的方法，采用外部语言模型（LM）在转移学习框架下。通过在共享词汇表的统一序列到序列（S2S）架构中构建语言无关的 ASR 系统，并在整个适应阶段将外部 LM 集成到基于注意力的 S2S 模型的解码器网络中的 LM 融合转移来有效地融合目标语言的语言上下文。作者还研究了各种用于转移学习的种子模型。实验评估使用 IARPA BABEL 数据集表明，当外部文本数据可用时，LM 融合转移比简单转移学习改善了所有五种目标语言的性能。最终系统使混合系统的性能差距大大降低。

Nov, 2018

序列对序列模型可直接翻译外语

我们提出一种递归编码器 - 解码器深度神经网络架构，直接将一种语言中的语音转换为另一种语言中的文本，通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。

Mar, 2017

对等学习中的序列到序列模型：一个实用应用

探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性，通过两种不同的点对点学习方法模拟代理学习过程，并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中，使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时，识别误差率 (Word Error Rate, WER) 为 84%，在 LJ Speech 数据集上训练时为 38%。然而，通过 55 个代理进行点对点学习，并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时，WER 在 UserLibri 数据集上的范围为 87% 至 92%，在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明，在分散式训练环境中使用 Seq2Seq 模型是可行的，尽管识别误差率 (WER) 稍高于集中式训练方法。

May, 2024

针对希伯来语自然语言处理的多语言序列到序列模型

使用序列生成结构的多语言模型能够更好的处理像希伯来语这样的形态丰富语言，从而提高希伯来语自然语言处理，与以往的编码器结构的预训练模型相比，取得了显著改善。

Dec, 2022

两者兼顾：结合神经机器翻译的最新进展

本文研究序列到序列 (seq2seq) 建模在机器翻译 (MT) 中的最新方法，提出了一种新的 RNN 模型 (RNMT+), 并且通过分析每种常见 seq2seq 架构的特点，设计出了一些混合架构来综合它们的优点，实验结果表明，混合架构进一步提高了 MT 的翻译性能。

Apr, 2018

从语言模型向序列到序列语音识别中迁移拼写知识：向教师学拼写

本文提出了一种基于知识蒸馏的训练方法，将外部语言模型集成到序列到序列语音识别系统中，通过递归神经网络语言模型生成软标签来指导序列到序列模型的训练，以此来降低字符错误率。

Jul, 2019