基于 Transformer 的中文序列到序列语音识别中建模单元的比较

May, 2018

基于 Transformer 的中文序列到序列语音识别中建模单元的比较

A Comparison of Modeling Units in Sequence-to-Sequence Speech Recognition with the Transformer on Mandarin Chinese

Shiyu Zhou, Linhao Dong, Shuang Xu, Bo Xu

TL;DR本论文探讨了在 Mandarin Chinese ASR 任务中使用不同建模单元（包括 CI-phonemes、音节、单词、子词和字符）在基于序列到序列关注机制的 Transformer 模型中的表现比较，结果表明基于字符的模型 CER 最好，其对于没有手动设计的词典和额外语言模型的 HKUST 数据集的最新 CER 为 26.64％，相对于现有最佳 CER 28.0％的 CTC-attention-based encoder-decoder 网络，有 4.8％的相对改进。

Abstract

The choice of modeling units is critical to automatic speech recognition (asr) tasks. Conventional asr systems typically choose context-de

asr modeling units sequence-to-sequence attention-based model mandarin chinese transformer

发现论文，激发创造

基于音节的 Transformer 序列到序列中文语音识别

通过使用基于自注意力机制的 Transformer 模型，比较了基于音节和音素的汉语语音识别模型，结果表明音节模型在 HKUST 语料库上表现优异。

Apr, 2018

端到端汉语语音识别的多级建模单元

本文提出了一种新颖的多级建模单元方法，通过编码器块将音节作为建模单元，解码器块处理字符级建模单元，实现了汉语语音识别。实验表明，该方法在 AISHELL-1 语料库上取得了很好的结果，在 Conformer 和 Transformer 骨干网上的 CER 分别为 4.1％/4.6％和 4.6％/5.2％。

May, 2022

基于 RNN Transducer 的中文普通话语音识别的发音感知唯一字符编码

该研究提出了一种新颖的、基于发音的独特字符编码方法，用于构建基于 E2E RNN-T 的汉语语音识别系统，以克服同音字问题和提取建模单元的困难，实验证明了该方法的有效性。

Jul, 2022

提升基于 CTC 的语音识别的多样建模单元

近年来，由于转换器等深度学习架构的进展，端到端（E2E）自动语音识别（ASR）模型的演变令人瞩目。在 E2E 系统的基础上，研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分，实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制，并提出了一种高效的联合训练方法，其中 E2E 模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接，还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的 ASR 系统时，异构建模单元的最佳整合提供了新的见解。

Jun, 2024

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

用单个 Transformer 实现多语言低资源语音端到端识别

本文利用单个 transformer 模型及语言符号，针对低资源语言进行多语言语音识别，相较于 SHL-MLSTM 具有较高的识别精度。

Jun, 2018

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

使用词级 N-Gram 语言模型改进普通话端到端语音识别

本研究提出了一种新型的解码算法，可以结合外部语言模型，构建单词级别的 lattice，用于提高语音识别的表现，并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。

Jan, 2022

利用大型语言模型进行端到端的中文 ASR 和 NER

通过将语音记号映射到与文本记号相同的特征空间，将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较，评估它们不仅基于传统的 F1 评分，还基于 ASR-NER 错误的新颖细粒度分类。实验结果表明，与短上下文相比，使用编码器 - 解码器架构的性能优于仅解码器架构，而对于长上下文，仅解码器架构可以充分利用 LLM 的所有层，从而获益。我们使用 LLM 显著减少了实体遗漏错误，并改善了实体 ASR 准确率，与 Conformer 基准相比，我们在 AISHELL-NER 测试集上获得了 0.805 的最先进的 F1 评分，并通过 chain-of-thought (CoT) NER 首先推断出长形 ASR 转录，然后预测 NER 标签。

Jan, 2024

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015