本研究使用转移学习和数据增强方法,对最近的 Deep Speech 模型(deepspeech-0.9.3)进行 fine-tuning,以开发一个适用于印度英语口音的端到端语音识别系统,并与其他可用的印度英语口音识别服务进行了比较。
Apr, 2022
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
在这项工作中,我们构建了一个满足条件的自动语音识别系统,用于年轻语言学习者的自由说话并保留他们的错误。
Jun, 2024
本文以法语为案例研究,从语言学的角度探讨自动语音识别系统在复杂语境下的识别准确度,并解决了法语同音词的歧义问题,提高了法语语音转写准确度。
Nov, 2022
介绍我们为东南亚语言开发的自动语音识别系统,以印尼语和泰语为例解释了收集语音和文本资源所需的各种策略。
Oct, 2022
该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别(ASR)原型系统。该系统针对孟加拉语和西利特语两种重要方言,培训和评估了两个流行的 ASR 框架,旨在为数字健康应用创建可部署的健康领域 ASR 系统,从而提高非技术用户在医疗保健领域的可访问性。
我们在这篇论文中研究了尼泊尔自动语音识别领域的研究。我们的主要目标是对迄今为止在尼泊尔自动语音识别系统上的工作进行全面回顾,探索使用的不同数据集,研究所采用的技术,并考虑在实现尼泊尔语自动语音识别系统时遇到的障碍。与基于语音识别的全球趋势相协调,尼泊尔与自动语音识别相关的项目数量也在增加。然而,与资源充足的语言相比,尼泊尔语的语言和声学模型的研究并没有得到足够的关注。在这种情况下,我们提供一个框架和未来研究的方向。
Feb, 2024
该研究论文探讨了自动语音识别(ASR)系统在不同语音口音上的普适性问题,分析了当前最有前景的口音识别方法,并强调了其中的关键挑战。
Apr, 2021