孟加拉语生物医学数据的自动语音识别

Jun, 2024

孟加拉语生物医学数据的自动语音识别

Automatic Speech Recognition for Biomedical Data in Bengali Language

Shariar Kabir, Nazmun Nahar, Shyamasree Saha, Mamunur Rashid

TL;DR该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Abstract

This paper presents the development of a prototype Automatic Speech Recognition (ASR) system specifically designed for bengali biomedical data. Recent advancements in →

automatic speech recognition bengali biomedical data asr system healthcare

发现论文，激发创造

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

面向东南亚语言的云自动语音识别系统

介绍我们为东南亚语言开发的自动语音识别系统，以印尼语和泰语为例解释了收集语音和文本资源所需的各种策略。

Oct, 2022

领域无关孟加拉自动语音识别的伪标签

通过伪标签方法开发一种大规模领域不可知的孟加拉语语音数据集和基于 Conformer 的自动语音识别系统，并在公开可用的数据集和人工注释的领域不可知测试集上进行效果评估。

Nov, 2023

调查域选择对孟加拉孟加拉语自动语音识别表现的影响：以案例研究为例

本研究中，我们通过评估一个最先进的孟加拉语自动语音识别模型，证明了领域选择的重要性，该模型在新的多领域孟加拉语 ASR 评估基准 - BanSpeech 上进行评估，其中包含来自 19 个不同领域的 9802 个话语。该 ASR 模型已经在 SUBAK.KO 上进行了训练，使用了深度卷积神经网络，层规范化技术和连接时序分类丢失准则，评估结果表明该 ASR 模型很难识别源于大部分自发性言论的领域的语音，并且包含的生词数量很多，在阅读语音领域表现更好并且包含更少的生词。

Oct, 2022

基于深度语音的印度英语口音端到端自动语音识别（ASR）

本研究使用转移学习和数据增强方法，对最近的 Deep Speech 模型（deepspeech-0.9.3）进行 fine-tuning，以开发一个适用于印度英语口音的端到端语音识别系统，并与其他可用的印度英语口音识别服务进行了比较。

Apr, 2022

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021