挖掘公共数据中的音频文本对以提升低资源语言的 ASR 系统有效性

Aug, 2022

挖掘公共数据中的音频文本对以提升低资源语言的 ASR 系统有效性

Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource Languages

Kaushal Santosh Bhogale, Abhigyan Raman, Tahir Javed, Sumanth Doddapaneni, Anoop Kunchukuttan...

TL;DR本文利用 All India Radio 文档中的文本和音频对来创建了一个名为 Shrutilipi 的数据集，该数据集包含来自 12 种印度语言的 6,400 小时的语音，其对应的文本总计 4.95M 句子。将 Shrutilipi 添加到训练集中可提高 Wav2Vec 模型、Conformer 模型的准确性，且该数据集具有代表性和多样性。

Abstract

End-to-end (E2E) models have become the default choice for state-of-the-art speech recognition systems. Such models are trained on large amounts of labelled data, which are often not available for low-resource languages

end-to-end models speech recognition low-resource languages indian languages shrutilipi dataset

发现论文，激发创造

文本转语音伪标签对于低资源语音识别中的强制对齐和跨语言预训练模型的有效性

本文提出一种对 Maithili、Bhojpuri 和 Dogri 语言创建标签数据的方法，并使用伪标签训练基于 Transformer 的 wav2vec 2.0 ASR 模型。

Mar, 2022

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

跨语言迁移学习的低资源语言端到端文本转语音

本文针对低资源语言语音合成任务，提出了从高资源语言中迁移知识的方法，并通过学习源与目标语言之间的语言符号映射，有效地构建了 TTS 系统，初步实验表明，只需要约 15 分钟的成对数据即可获得相对良好的 TTS 系统。

Apr, 2019

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024

利用声学伪标记预测正向迁移，以改进低资源语音识别

通过引入相似、高资源语言的数据，可以提高低资源语言的自动语音识别性能，并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS)，能够准确预测目标语言的 ASR 性能。

Feb, 2024

一种无监督概率模型用于低资源语言的语音到翻译对齐

本论文提出一种模型，结合 IBM Model 2 和 k-means 聚类，使用动态时间规整作为距离度量，在极低资源情况下，该模型比神经模型表现更好，可用于将翻译的语音数据自动对齐。

Sep, 2016

在多模数据融合中进行长音频采访与问题的时间对齐：一个案例研究

我们提出了一种名为 INDENT 的模型，利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入，从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性（R-avg 提高了约 3%），并且演示了使用印度语音的噪声 ASR 在替代语音方面取得更好结果的情况。我们的模型只使用了印地语数据进行训练，但可以涵盖所有由（语义上）共享文本空间支持的语言，在 11 种印度语言上进行了实证研究。

Oct, 2023

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018