基于音素、字素和多语言 CTC 的语音识别

Nov, 2017

基于音素、字素和多语言 CTC 的语音识别

Phonemic and Graphemic Multilingual CTC Based Speech Recognition

Markus Müller, Sebastian Stüker, Alex Waibel

TL;DR该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题，使用循环神经网络和连接时序分类等技术进行训练，提高了多语言系统的性能，缩小了单语和多语系统之间的差距。

Abstract

Training automatic speech recognition (ASR) systems requires large amounts of data in the target language in order to achieve good performance. Whereas large training corpora are readily available for languages like English, there exists a long tail of languages which do suffer from a

automatic speech recognition multilingual system recurrent neural networks connectionist temporal classification data sparsity

发现论文，激发创造

基于 CTC 的声学模型的多语言训练和跨语言适应

研究了多种适应和规则化技术，并使用深度神经网络，调查了自适应性训练的潜力，并研究了退火珂朵莉的效果，得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能，并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。

Nov, 2017

利用辅助 CTC 目标提高大规模多语言 ASR 性能

本篇研究探讨自动语音识别中多语言不平衡性的问题，并使用语言标识条件来改善性能，并采用自我监督模型和 Conformer 架构实现相对于先前工作的 28.4% 的 CER 的最新系统。

Feb, 2023

基于序列的多语言低资源语音识别

研究多语言和跨语言语音识别技术，通过使用基于序列的端到端方法，提高系统性能，并可跨语言适应新的语言和领域。

Feb, 2018

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

多语种图音融合 ASR 与大规模数据增强

本文介绍了一种单一的基于字形的 ASR 模型，采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习，能对七种语言进行无歧义的识别，并且比每个单一语言的 ASR 模型表现更佳。同时，我们还评估了多种数据增强的方法，并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言，还能大大提高 ASR 性能。

Sep, 2019

面向低资源多语言语音识别的自适应激活网络

本篇论文提出了一种适应性激活网络，用于深度学习 ASR 模型的上层，并将不同的激活函数应用于不同的语言，通过交叉语言学习和多语言学习优化模型，达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升，结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。

May, 2022

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

跨语种和语言模态之间的桥梁：同步双语 CTC 用于语音翻译和语音识别

本研究提出了一种创新的同步双语联结主义时间分类 (CTC) 框架，利用双重 CTC 来填补语音翻译任务中模态和语言之间的差距。通过将转录和翻译作为 CTC 的并行目标，我们的模型填补了音频和文本以及源语言和目标语言之间的差距。在 CTC 应用的最新进展基础上，我们还开发了一个增强的变体 BiL-CTC+，在资源受限场景下创造出了新的最先进性能。有趣的是，我们的方法还显著提高了语音识别性能，揭示了跨语言学习对转录的影响，并展示了其广泛的适用性。源代码可以在此 https URL 获取。

Sep, 2023

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022