Vakyansh: 适用于资源稀缺的印度语言的 ASR 工具包

Mar, 2022

Vakyansh: 适用于资源稀缺的印度语言的 ASR 工具包

Vakyansh: ASR Toolkit for Low Resource Indic languages

Harveen Singh Chadha, Anirudh Gupta, Priyanshi Shah, Neeraj Chhimwal, Ankur Dhuriya...

TL;DRVakyansh 是一个 Indic 语言语音识别端到端工具包，通过自动数据流水线实现数据创建，训练和部署，提供了适应于 18 种 Indic 语言的最先进的语音识别模型，并开放了所有这些资源来支持语音开发者社区。

Abstract

We present Vakyansh, an end to end toolkit for speech recognition in Indic languages. India is home to almost 121 languages and around 125 crore speakers. Yet most of the languages are low resource in terms of data and pretrained models. Through Vakyansh, we introduce automatic

speech recognition indic languages data pipelines pretrained models asr models

发现论文，激发创造

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

Vistaar: 用于印度语音识别的多元基准和训练集

本文提出了 Vistaar，59 个受试语言和领域组合的基准，用于评估和改进三个公开的 ASR 系统和两个商业系统，同时使用 IndicWhisper 通过在 12 种印度语言上进行微调，在 Vistaar 基准中明显改善了考虑到的 ASR 系统。

May, 2023

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

Svarah: 评估印度口音上的英语 ASR 系统

本研究创建了一个 Svarah 基准测试数据集，其中包括来自印度 65 个地理位置的 117 位说话者的 9.6 小时的语音数据，用来评估 ASR 模型在印度口音上的表现，并发现改进的空间。

May, 2023

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

使用 Tacotron2、WaveGlow 和迁移学习的低资源端到端梵语 TTS

本文研究使用 fine-tuning 改进了英语预训练的 Tacotron2 模型，以有限的梵语数据在资源匮乏的环境下合成自然语音，并取得了令人鼓舞的结果。

Dec, 2022

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan 语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与 FastPitch 和 HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为 13 种语言训练和评估 TTS 模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过 Bhashini 平台开源所有模型。

Nov, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022