孟加拉语生物医学数据的自动语音识别
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
通过众包的方式,我们创建了孟加拉语公共语音数据集,该数据集是一个句子级自动语音识别语料库,与现有的最大开源孟加拉语数据集相比,该数据集具有更多的说话人、音素和环境多样性,并为未来的研究设立了基准。
Jun, 2022
自动语音识别(ASR)是计算语言学的一个关键领域,主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面,使用监督学习训练改善语音识别的神经网络,并设计对声音信号进行准确对齐的新型反向传播方法。
Jun, 2024
通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统,并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。
Nov, 2023
本研究中,我们通过评估一个最先进的孟加拉语自动语音识别模型,证明了领域选择的重要性,该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估,其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练,使用了深度卷积神经网络,层规范化技术和连接时序分类丢失准则,评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音,并且包含的生词数量很多,在阅读语音领域表现更好并且包含更少的生词。
Oct, 2022
本研究使用转移学习和数据增强方法,对最近的 Deep Speech 模型(deepspeech-0.9.3)进行 fine-tuning,以开发一个适用于印度英语口音的端到端语音识别系统,并与其他可用的印度英语口音识别服务进行了比较。
Apr, 2022
通过应用连续的孟加拉语音,我们提出了一种方法来确定某个地区说话者的地理身份,使用了 Mel 频率倒谱系数(MFCC)和 Delta 特征在人工神经网络上对说话者进行分类,并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据,并获得了 85.44% 的最高准确率。
Apr, 2024
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021