Vakyansh: 适用于资源稀缺的印度语言的 ASR 工具包
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
本文提出了 Vistaar,59 个受试语言和领域组合的基准,用于评估和改进三个公开的 ASR 系统和两个商业系统,同时使用 IndicWhisper 通过在 12 种印度语言上进行微调,在 Vistaar 基准中明显改善了考虑到的 ASR 系统。
May, 2023
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库,以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES,我们构建了 IndicASR,这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。
Mar, 2024
本研究创建了一个 Svarah 基准测试数据集,其中包括来自印度 65 个地理位置的 117 位说话者的 9.6 小时的语音数据,用来评估 ASR 模型在印度口音上的表现,并发现改进的空间。
May, 2023
本研究通过比较使用多语种和单语种模型进行语音识别的表现,提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术,取得了印度诸多语言语音识别的较好效果。
Mar, 2022
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
本文研究使用 fine-tuning 改进了英语预训练的 Tacotron2 模型,以有限的梵语数据在资源匮乏的环境下合成自然语音,并取得了令人鼓舞的结果。
Dec, 2022
本研究评估了科威特琴主义和印度Aryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此,我们确定了单语模型与 FastPitch 和 HiFi-GAN V1,联合训练男性和女性说话者表现最佳。在这个设置下,我们为 13 种语言训练和评估 TTS 模型,并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。
Nov, 2022
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022