本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
本文介绍了一个最新的基于端到端的语音识别测试平台,探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持,并对不同的系统进行了比较分析分析,发现端到端系统在不同数据集的应用效果良好,并指出了如何改进现有语音识别系统存在的问题。
Oct, 2022
通过众包的方式,我们创建了孟加拉语公共语音数据集,该数据集是一个句子级自动语音识别语料库,与现有的最大开源孟加拉语数据集相比,该数据集具有更多的说话人、音素和环境多样性,并为未来的研究设立了基准。
Jun, 2022
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
该研究提出了两种新型的基于特征的即时演讲者适应方法,即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示,这两种方法在适应演讲者语音时表现出色,其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。
Mar, 2022
采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。
Sep, 2023
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
Jan, 2023
本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现,其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6%,并探讨了提高挪威语 ASR 模型的挑战和解决方案。
Jul, 2023
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024