流式语音识别的 Transformer 修正器的联合音频 / 文本训练

Oct, 2022

流式语音识别的 Transformer 修正器的联合音频 / 文本训练

Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition

Suyoun Kim, Ke Li, Lucas Kabela, Rongqing Huang, Jiedan Zhu...

TL;DR本研究提供了一种联合音频 / 文本训练方法，以降低配对音频 - 文本数据的代价，并减少了模型参数和延迟，同时在 Librispeech 数据库和内部数据库上显着提高了单词错误率的 Transformer Rescorer。

Abstract

Recently, there has been an increasing interest in two-pass streaming end-to-end speech recognition (ASR) that incorporates a 2nd-pass rescoring model on top of the conventional 1st-pass streaming ASR model to im

two-pass streaming end-to-end speech recognition transformer rescorer joint audio/text training word error rate

发现论文，激发创造

基于 Transformer 的并行重估分数模型用于流式端上语音识别

本研究使用 Transformer 层替换 LSTM 层以减少二次模型的计算延迟，并提高 end-to-end 模型的质量。

Aug, 2020

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

基于 Transformer 的语音识别 N-Best 重新评分和重写模型

声助助手越来越多地使用设备上的自动语音识别（ASR）以确保速度和隐私。然而，由于设备上的资源限制，涉及复杂信息领域的查询通常需要搜索引擎进一步处理。针对这种应用，我们提出了一种新颖的基于 Transformer 模型的能够通过并行地探索 N 个最佳假设的完整上下文来重新评分和重写的模型。我们还提出了一种新的区分性序列训练目标，可在重新评分和重写任务中都能良好地工作。我们表明，我们的 “重新评分 + 重写” 模型优于仅重新评分的基准模型，并且相对于仅 ASR 系统本身，词错误率（WER）平均降低了高达 8.6%。

Jun, 2024

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

大规模流式 ASR 半监督学习技术比较

比较三种基于半监督方法的语音识别性能提高策略

Apr, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023