孟加拉 Common Voice 语音数据集用于自动语音识别

Jun, 2022

孟加拉 Common Voice 语音数据集用于自动语音识别

Bengali Common Voice Speech Dataset for Automatic Speech Recognition

Samiul Alam, Asif Sushmit, Zaowad Abdullah, Shahrin Nakkhatra, MD. Nazmuddoha Ansary...

TL;DR通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Abstract

bengali is one of the most spoken languages in the world with over 300 million speakers globally. Despite its popularity, research into the development of bengali →

bengali speech recognition dataset crowdsourcing automatic speech recognition

发现论文，激发创造

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

OOD-Speech：一个用于语音识别识别数据集的 Out-of-Distribution 基准测试

本文介绍了 OOD-Speech，这是目前第一个为孟加拉语自动语音识别（ASR）提供了 ODD 基准测试集的数据集，并通过在线众包策略从南亚的 22,645 个母语为孟加拉语的人员中收集和整理了 1177.94 个小时的数据集，同时还使用 17 个不同来源的 23.03 小时的语音数据集进行手动注释以进行测试。

May, 2023

孟加拉语生物医学数据的自动语音识别

该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Jun, 2024

Common Voice: 一個大規模多語言語音語料庫

Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括 29 种语言，收集了超过 2500 小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

领域无关孟加拉自动语音识别的伪标签

通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统，并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。

Nov, 2023

粤语自动语音识别数据集：调查与新数据集

本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC)，采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。

Jan, 2022

调查域选择对孟加拉孟加拉语自动语音识别表现的影响：以案例研究为例

本研究中，我们通过评估一个最先进的孟加拉语自动语音识别模型，证明了领域选择的重要性，该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估，其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练，使用了深度卷积神经网络，层规范化技术和连接时序分类丢失准则，评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音，并且包含的生词数量很多，在阅读语音领域表现更好并且包含更少的生词。

Oct, 2022

民间演讲：商业应用的大规模多元化英文语音识别数据集

本文介绍一个基于互联网搜集的，供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集，其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率，并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。

Nov, 2021