基于楚科奇语的低资源语言自动语音识别

Oct, 2022

基于楚科奇语的低资源语言自动语音识别

Automatic Speech Recognition of Low-Resource Languages Based on Chukchi

Anastasia Safonova, Tatiana Yudina, Emil Nadimanov, Cydnie Davenport

TL;DR本文介绍了一个自动语音识别 (ASR) 项目，旨在研究和创建基于楚科奇语的新 ASR 系统。该语言是一种低资源语言，也是一种多合成语，其对于任何自动处理都具有很大的复杂性。通过收集音频和文本数据，我们成功地训练了 XLSR 模型，并使用 CER 度量标准获得了良好的结果。

Abstract

The following paper presents a project focused on the research and creation of a new automatic speech recognition (ASR) based in the chukchi language. There is no one complete corpus of the →

automatic speech recognition chukchi language low-resource language xlsr model polysynthetic language

发现论文，激发创造

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024

LRSpeech: 极低资源语音合成与识别

本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统，能够在极低资源的情况下支持资料匮乏的语言，并通过三个关键技术来优化模型，包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求，在语音识别方面达到了很好的识别精度，并且需要非常少的训练数据。

Aug, 2020

满语语音识别模型 ManWav

这项研究讨论了在高资源语言和极低资源语言之间自动语音识别（ASR）研究的差距扩大的问题，重点关注满洲语，这是一种濒临灭绝的语言。研究引入了第一款满洲语 ASR 模型 ManWav，利用 Wav2Vec2-XLSR-53 技术。在采用增强数据进行训练的情况下，模型的结果表明 CER 下降了 0.02，WER 下降了 0.13，相较于使用原始数据进行训练的同一基模型。

Jun, 2024

非洲土著语言语音转文本应用中的音素表示和转写：以斯瓦希里语为例

研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发，提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典，以及使用扩展的音位集培训的 ASR 模型，使得模型优于以前类似研究的表现，并可在听障者中实现其母语的转录。

Oct, 2022

一种低资源语音识别的新型自训练方法

我们提出了一种自学习方法，用于低资源环境下的自动语音识别（ASR）。通过在小语种如旁遮普语中生成高度精确的伪标签，我们的方法在四个真实语音数据集上相对提高了 14.94% 的词错误率，并在 Common Voice 旁遮普语数据集上取得了最佳结果。

Aug, 2023

低资源下克丘亚语自动语音识别的数据增强

本篇论文描述了一种基于数据增强的方法，使用 wav2letter ++ 模型对 Quechua 进行语音识别的实验。通过将合成数据与文本增强相结合，将基本模型的识别错误率降低了 8.73％，最终 ASR 模型的识别错误率为 22.75％。

Jul, 2022

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

Killkan: 具有形态句法信息的基准 Kichwa 自动语音识别数据集

Killkan 是第一个专注于 Kichwa 语（厄瓜多尔的一种土著语言）的自动语音识别（ASR）数据集，包含约 4 小时的音频及转录、西班牙语翻译和形态句法注释等信息，旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析，特别关注 Kichwa 语的合成构词和与西班牙语的频繁语码混用，实验证明即使数据集规模较小，也能实现可靠质量的 Kichwa 语 ASR 系统的开发。该数据集、ASR 模型和开发所使用的代码将公开提供，积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。

Apr, 2024