基于楚科奇语的低资源语言自动语音识别
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统,能够在极低资源的情况下支持资料匮乏的语言,并通过三个关键技术来优化模型,包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求,在语音识别方面达到了很好的识别精度,并且需要非常少的训练数据。
Aug, 2020
这项研究讨论了在高资源语言和极低资源语言之间自动语音识别(ASR)研究的差距扩大的问题,重点关注满洲语,这是一种濒临灭绝的语言。研究引入了第一款满洲语 ASR 模型 ManWav,利用 Wav2Vec2-XLSR-53 技术。在采用增强数据进行训练的情况下,模型的结果表明 CER 下降了 0.02,WER 下降了 0.13,相较于使用原始数据进行训练的同一基模型。
Jun, 2024
研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发,提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典,以及使用扩展的音位集培训的 ASR 模型,使得模型优于以前类似研究的表现,并可在听障者中实现其母语的转录。
Oct, 2022
我们提出了一种自学习方法,用于低资源环境下的自动语音识别(ASR)。通过在小语种如旁遮普语中生成高度精确的伪标签,我们的方法在四个真实语音数据集上相对提高了 14.94% 的词错误率,并在 Common Voice 旁遮普语数据集上取得了最佳结果。
Aug, 2023
本篇论文描述了一种基于数据增强的方法,使用 wav2letter ++ 模型对 Quechua 进行语音识别的实验。通过将合成数据与文本增强相结合,将基本模型的识别错误率降低了 8.73%,最终 ASR 模型的识别错误率为 22.75%。
Jul, 2022
提出了一种语音识别流程,可以利用 n-gram 统计信息或原始文本数据集,在没有音频文件的情况下,使用多语种模型构建语音识别流程,并在 1909 种语言上进行了测试。
Sep, 2022
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
Killkan 是第一个专注于 Kichwa 语(厄瓜多尔的一种土著语言)的自动语音识别(ASR)数据集,包含约 4 小时的音频及转录、西班牙语翻译和形态句法注释等信息,旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析,特别关注 Kichwa 语的合成构词和与西班牙语的频繁语码混用,实验证明即使数据集规模较小,也能实现可靠质量的 Kichwa 语 ASR 系统的开发。该数据集、ASR 模型和开发所使用的代码将公开提供,积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。
Apr, 2024