原生语言的 ASR 进展：Quechua, Guarani, Bribri, Kotiria 和 Wa'ikhana

Apr, 2024

原生语言的 ASR 进展：Quechua, Guarani, Bribri, Kotiria 和 Wa'ikhana

ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana

Monica Romero, Sandra Gomez, Iván G. Torre

TL;DR我们通过爬取广泛的语音语料库并应用数据增强方法，为五种土著语言（Quechua、Guarani、Bribri、Kotiria 和 Wa'ikhana）提供了可靠的自动语音识别（ASR）模型，其中包括 Wav2vec2.0 XLS-R 模型的不同变体

Abstract

indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities of America. The Second AmericasNLP Competition Track 1 of NeurIPS 2022 proposed developing →

indigenous languages automatic speech recognition asr model data augmentation methods hyperparameters

发现论文，激发创造

评估自监督语音表示对美国土著语言的应用

应用自监督方法于语音表示学习的研究已引起广泛关注，然而，目前的进展主要集中在只考虑英语的单语模型上。我们在 ASRU 2023 ML-SUPERB 挑战赛的新语言轨道上提交了一份研究报告，其中介绍了一个针对 Quechua 语（一种南美洲土著语言）的 ASR 语料库。我们评估了大规模的自监督学习模型在 Quechua 语以及其他 6 种土著语言（如 Guarani 和 Bribri）的低资源 ASR 上的效果，结果显示最先进的自监督学习模型表现出了惊人的性能，展示了大规模模型在现实数据上的潜在泛化能力。

Oct, 2023

Killkan: 具有形态句法信息的基准 Kichwa 自动语音识别数据集

Killkan 是第一个专注于 Kichwa 语（厄瓜多尔的一种土著语言）的自动语音识别（ASR）数据集，包含约 4 小时的音频及转录、西班牙语翻译和形态句法注释等信息，旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析，特别关注 Kichwa 语的合成构词和与西班牙语的频繁语码混用，实验证明即使数据集规模较小，也能实现可靠质量的 Kichwa 语 ASR 系统的开发。该数据集、ASR 模型和开发所使用的代码将公开提供，积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。

Apr, 2024

非洲土著语言语音转文本应用中的音素表示和转写：以斯瓦希里语为例

研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发，提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典，以及使用扩展的音位集培训的 ASR 模型，使得模型优于以前类似研究的表现，并可在听障者中实现其母语的转录。

Oct, 2022

低资源下克丘亚语自动语音识别的数据增强

本篇论文描述了一种基于数据增强的方法，使用 wav2letter ++ 模型对 Quechua 进行语音识别的实验。通过将合成数据与文本增强相结合，将基本模型的识别错误率降低了 8.73％，最终 ASR 模型的识别错误率为 22.75％。

Jul, 2022

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024

谢菲尔德参加美洲本土语言机器翻译共享任务

本文介绍了谢菲尔德大学针对 2023 年的 AmericasNLP 机器翻译大赛中，从西班牙语翻译成 11 种土著语言的参赛方案，使用不同变体的 NLLB-200 进行扩展，训练和组合，包括组成，手册，新闻文章和单语数据生成的回译数据。在测试集上，我们获得了所有提交的最高平均 chrF 分数，其中四种语言排名第一，我们的至少一份提交在所有语言中排名前三。

Jun, 2023

基于楚科奇语的低资源语言自动语音识别

本文介绍了一个自动语音识别 (ASR) 项目，旨在研究和创建基于楚科奇语的新 ASR 系统。该语言是一种低资源语言，也是一种多合成语，其对于任何自动处理都具有很大的复杂性。通过收集音频和文本数据，我们成功地训练了 XLSR 模型，并使用 CER 度量标准获得了良好的结果。

Oct, 2022

Vistaar: 用于印度语音识别的多元基准和训练集

本文提出了 Vistaar，59 个受试语言和领域组合的基准，用于评估和改进三个公开的 ASR 系统和两个商业系统，同时使用 IndicWhisper 通过在 12 种印度语言上进行微调，在 Vistaar 基准中明显改善了考虑到的 ASR 系统。

May, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

AfriNames: 许多 ASR 模型 “屠杀” 非洲人的姓名

通过多语言预训练、智能数据增强策略以及在多种非洲口音上微调多语言自动语音识别模型，解决使用非洲人名时自动语音识别模型性能下降的问题。相比基准样本，在使用非洲人名的样本上精度相对错误率改善了 81.5%。

Jun, 2023