Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

Sep, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language Models

Mohammed Rakib, Md. Ismail Hossain, Nabeel Mohammed, Fuad Rahman

TL;DR通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Abstract

Although over 300M around the world speak bangla, scant work has been done in improving bangla voice-to-text transcription due to

bangla voice-to-text transcription automatic speech recognition bengali common voice wav2vec2

发现论文，激发创造

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

孟加拉语生物医学数据的自动语音识别

该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Jun, 2024

Thai Wav2Vec2.0 在 CommonVoice V8 上的应用

为了改进泰语自动语音识别（ASR）模型在开源数据上的表现，我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型，并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。

Aug, 2022

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

在孟加拉通用语音数据集上应用 Wav2Vec2 进行语音识别

本文基于 Bengali Common Voice Speech 数据集，使用 fine-tuned 的 wav2vec 2.0 实现了对孟加拉语言音信号的识别和转录，使用了 5-gram 语言模型并计算 Levenshtein 距离，得到了最佳性能的模型具有较低的 Levenshtein 距离并表现出较高的识别准确率。

Sep, 2022

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

调查域选择对孟加拉孟加拉语自动语音识别表现的影响：以案例研究为例

本研究中，我们通过评估一个最先进的孟加拉语自动语音识别模型，证明了领域选择的重要性，该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估，其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练，使用了深度卷积神经网络，层规范化技术和连接时序分类丢失准则，评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音，并且包含的生词数量很多，在阅读语音领域表现更好并且包含更少的生词。

Oct, 2022

领域无关孟加拉自动语音识别的伪标签

通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统，并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。

Nov, 2023

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022