评估自动语音识别在增量式场景中的性能

Feb, 2023

评估自动语音识别在增量式场景中的性能

Evaluating Automatic Speech Recognition in an Incremental Setting

Ryan Whetten, Mir Tahsin Imtiaz, Casey Kennington

TL;DR本文通过系统评估六种语音识别器的性能并提出了两种方法用于流式语音识别，并提出了新的指标用于评估增量识别。研究发现，本地识别器通常更快，需要更新的次数较少，并且 Meta 的 Wav2Vec 模型是最快的，Mozilla 的 DeepSpeech 模型在其预测中最稳定。

Abstract

The increasing reliability of automatic speech recognition has proliferated its everyday use. However, for research purposes, it is often unclear which model one should choose for a task, particularly if there is a requirement for speed as well as accuracy. In this paper, we systematic

automatic speech recognition speech recognizers word error rate incremental recognition model performance

发现论文，激发创造

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

用合成语音训练识别器评估语音合成

论文提出了一种基于训练合成语音自动识别模型并评估其在真实语音上表现的评估技术，该指标与意见分数自然性和可懂性均呈现出强相关性。

Oct, 2023

基于循环神经网络的逐字递增语音识别

本文提出了一种基于 RNN 的字符级增量语音识别系统，使用 CTC 进行端到端训练，在短时间内响应语音输入，通过基于树的在线 Beam Search 算法实现字级别的识别，该系统不仅能够响应不断输入的语音，还能根据发音来发音对语音的字词进行识别。在训练数据集上，该模型将字错率降低至 8.90％。

Jan, 2016

SpeechNet：工业级弱监督端到端语音识别

本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Nov, 2022

自动语音识别中的持续学习新词

基于自我监督的持续学习方法，在自动语音识别系统中识别新词时表现出增长性能，通过使用来自之前工作中的增强型记忆自动语音识别模型，通过偏置模型向滑动中的新词进行解码，并对检测到的新词使用推理，将包含这些新词的话语收集到自适应数据集中，对该集进行持续学习，通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能（超过 80% 的召回率），同时保持模型的一般性能。

Jan, 2024

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

通过自动语音识别在小学中进行阅读疏忽检测

本研究探讨了现有的最先进预训练自动语音识别（ASR）模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果，发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现（23.1% 的音位级错误率），而 Whisper（Faster Whisper Large-v2）则在词级表现最佳（9.8% 的词错误率）。此外，Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型，其中 Wav2Vec2 Large 的召回率最高（0.83），而 Whisper 的精确度和 F1 得分均为 0.52。

Jun, 2024

动态环境下的短期词汇学习

本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆，以显著提高新词的检测率，并在只添加少量单词的情况下仅轻微增加误报率。

Mar, 2022