Bangla-Wave:利用 N-gram 语言模型提高孟加拉语自动语音识别
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
通过众包的方式,我们创建了孟加拉语公共语音数据集,该数据集是一个句子级自动语音识别语料库,与现有的最大开源孟加拉语数据集相比,该数据集具有更多的说话人、音素和环境多样性,并为未来的研究设立了基准。
Jun, 2022
该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别(ASR)原型系统。该系统针对孟加拉语和西利特语两种重要方言,培训和评估了两个流行的 ASR 框架,旨在为数字健康应用创建可部署的健康领域 ASR 系统,从而提高非技术用户在医疗保健领域的可访问性。
Jun, 2024
为了改进泰语自动语音识别(ASR)模型在开源数据上的表现,我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型,并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。
Aug, 2022
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
本文基于 Bengali Common Voice Speech 数据集,使用 fine-tuned 的 wav2vec 2.0 实现了对孟加拉语言音信号的识别和转录,使用了 5-gram 语言模型并计算 Levenshtein 距离,得到了最佳性能的模型具有较低的 Levenshtein 距离并表现出较高的识别准确率。
Sep, 2022
通过应用连续的孟加拉语音,我们提出了一种方法来确定某个地区说话者的地理身份,使用了 Mel 频率倒谱系数(MFCC)和 Delta 特征在人工神经网络上对说话者进行分类,并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据,并获得了 85.44% 的最高准确率。
Apr, 2024
本研究中,我们通过评估一个最先进的孟加拉语自动语音识别模型,证明了领域选择的重要性,该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估,其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练,使用了深度卷积神经网络,层规范化技术和连接时序分类丢失准则,评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音,并且包含的生词数量很多,在阅读语音领域表现更好并且包含更少的生词。
Oct, 2022
通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统,并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。
Nov, 2023
本文探究了应用语言模型(LM)到印欧语系语言的自动语音识别(ASR)系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调,并进行结果调整。我们的研究结果显示,经过 LM 解码后,字符错误率(CER)平均降低了 28%以上,单词错误率(WER)平均降低了约 36%。文章还表明,与多样化的 LM 相比,大型 LM 可能不会带来更大的改进。此外,我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。
Mar, 2022