领域无关孟加拉自动语音识别的伪标签

EMNLPNov, 2023

领域无关孟加拉自动语音识别的伪标签

Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition

Rabindra Nath Nandi, Mehadi Hasan Menon, Tareq Al Muntasir, Sagor Sarker, Quazi Sarwar Muhtaseem...

TL;DR通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统，并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。

Abstract

One of the major challenges for developing automatic speech recognition (ASR) for low-resource languages is the limited access to labeled data with domain-specific variations. In this study, we propose a

automatic speech recognition low-resource languages pseudo-labeling bangla speech dataset conformer-based asr system

发现论文，激发创造

调查域选择对孟加拉孟加拉语自动语音识别表现的影响：以案例研究为例

本研究中，我们通过评估一个最先进的孟加拉语自动语音识别模型，证明了领域选择的重要性，该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估，其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练，使用了深度卷积神经网络，层规范化技术和连接时序分类丢失准则，评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音，并且包含的生词数量很多，在阅读语音领域表现更好并且包含更少的生词。

Oct, 2022

文本转语音伪标签对于低资源语音识别中的强制对齐和跨语言预训练模型的有效性

本文提出一种对 Maithili、Bhojpuri 和 Dogri 语言创建标签数据的方法，并使用伪标签训练基于 Transformer 的 wav2vec 2.0 ASR 模型。

Mar, 2022

孟加拉语生物医学数据的自动语音识别

该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Jun, 2024

一种低资源语音识别的新型自训练方法

我们提出了一种自学习方法，用于低资源环境下的自动语音识别（ASR）。通过在小语种如旁遮普语中生成高度精确的伪标签，我们的方法在四个真实语音数据集上相对提高了 14.94% 的词错误率，并在 Common Voice 旁遮普语数据集上取得了最佳结果。

Aug, 2023

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

无监督领域自适应语音识别与无监督错误校正

本文提出了一种无监督自适应错误校正方法，可以在未见过的领域中恢复由领域差异引起的语音识别错误，使用伪标记技术生成学习样本，在持续学习中以减少过度拟合，并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性，实验结果表明，该方法相对于未自适应的 ASR 系统显著降低了单词错误率，并可用于其他适应方法以带来额外的 10% 的性能提升。

Sep, 2022

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022