领域无关孟加拉自动语音识别的伪标签
本研究中,我们通过评估一个最先进的孟加拉语自动语音识别模型,证明了领域选择的重要性,该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估,其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练,使用了深度卷积神经网络,层规范化技术和连接时序分类丢失准则,评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音,并且包含的生词数量很多,在阅读语音领域表现更好并且包含更少的生词。
Oct, 2022
本文提出一种对 Maithili、Bhojpuri 和 Dogri 语言创建标签数据的方法,并使用伪标签训练基于 Transformer 的 wav2vec 2.0 ASR 模型。
Mar, 2022
该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别(ASR)原型系统。该系统针对孟加拉语和西利特语两种重要方言,培训和评估了两个流行的 ASR 框架,旨在为数字健康应用创建可部署的健康领域 ASR 系统,从而提高非技术用户在医疗保健领域的可访问性。
Jun, 2024
我们提出了一种自学习方法,用于低资源环境下的自动语音识别(ASR)。通过在小语种如旁遮普语中生成高度精确的伪标签,我们的方法在四个真实语音数据集上相对提高了 14.94% 的词错误率,并在 Common Voice 旁遮普语数据集上取得了最佳结果。
Aug, 2023
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
通过众包的方式,我们创建了孟加拉语公共语音数据集,该数据集是一个句子级自动语音识别语料库,与现有的最大开源孟加拉语数据集相比,该数据集具有更多的说话人、音素和环境多样性,并为未来的研究设立了基准。
Jun, 2022
本文提出了一种无监督自适应错误校正方法,可以在未见过的领域中恢复由领域差异引起的语音识别错误,使用伪标记技术生成学习样本,在持续学习中以减少过度拟合,并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性,实验结果表明,该方法相对于未自适应的 ASR 系统显著降低了单词错误率,并可用于其他适应方法以带来额外的 10% 的性能提升。
Sep, 2022
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
本文提出了一种简单的基线技术,使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据,并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调,结果表明,单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.
Jun, 2022