IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

Sep, 2024

IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS

Ashwin Sankar, Srija Anand, Praveen Srinivasa Varadhan, Sherry Thomas, Mehak Singal...

TL;DR本研究解决了印度语言缺乏高质量手动字幕数据的问题，通过增强现有的大规模自动语音识别数据集，生成高质量的文本到语音（TTS）训练数据。提出的IndicVoices-R（IV-R）是来自自动语音识别数据集的最大型多语言印度TTS数据集，涵盖22种语言，并引入了IV-R基准，以评估TTS模型在印度语音上的说话人泛化能力。研究表明，使用我们的数据进行微调的模型能更好地实现零-shot说话人泛化，从而推动了印度TTS技术的发展。

Abstract

Recent advancements in Text-to-Speech (TTS) synthesis show that large-scale models trained with extensive web data produce highly natural-sounding output. However, such data is scarce for Indian Languages due to

发现论文，激发创造

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用DNN的分层映射技术和多任务DNN模型，分别在印度语种中取得9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

IndicSUPERB：印度语言语音处理通用性能基准

该篇论文主要介绍了自然语言理解和语音语言理解中使用的GLUE数据集和SUPERB基准集，同时提供了IndicSUPERB基准集，为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估，证明了Self-supervised模型在语言识别任务中的优势。

Aug, 2022

挖掘公共数据中的音频文本对以提升低资源语言的ASR系统有效性

本文利用All India Radio文档中的文本和音频对来创建了一个名为Shrutilipi的数据集，该数据集包含来自12种印度语言的6,400小时的语音，其对应的文本总计4.95M句子。将Shrutilipi添加到训练集中可提高Wav2Vec模型、Conformer模型的准确性，且该数据集具有代表性和多样性。

Aug, 2022

面向下一个十亿用户构建文本转语音系统

本研究评估了科威特琴主义和印度Ａryan语言的声学模型、语音合成器、辅助损失函数、训练计划和说话者和语言多样性。基于此，我们确定了单语模型与FastPitch和HiFi-GAN V1，联合训练男性和女性说话者表现最佳。在这个设置下，我们为13种语言训练和评估TTS模型，并发现我们的模型在所有语言中都明显优于现有模型。我们通过Bhashini平台开源所有模型。

Nov, 2022

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的TTS系统Mega-TTS，训练了20k小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

BASE TTS：基于100K小时数据构建亿参数的文本转语音模型的经验教训

我们介绍了一个名为BASE TTS的文本转语音(TTS)模型，它是迄今为止最大的TTS模型，以100K小时的公共领域语音数据进行训练，在语音自然度方面取得了最新的最佳效果。

Feb, 2024

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了INDICVOICES数据集，该数据集包含来自16237名发言人的7348小时自然和自发的语音，涵盖了145个印度地区和22种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用INDICVOICES，我们构建了IndicASR，这是第一个支持印度宪法第八版中列出的22种语言的ASR模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

GigaSpeech 2：用于低资源语种的演进、大规模、多领域的ASR语料库的自动爬取、转写和优化

这篇论文介绍了GigaSpeech 2，一个为低资源语言设计的大规模、多领域、多语种的语音识别语料库，它不依赖于配对的语音和文本数据。该论文还介绍了一个自动化的数据爬取、转录和标签优化流程，以及通过修改的Noisy Student Training来进一步提高模型性能。实验结果证明了该语料库高质量和广泛适用性，并且相比于Whisper large-v3模型，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的测试集上可以将词错误率降低25%至40%。同时，与商业服务相比，基于GigaSpeech 2训练的ASR模型也能取得更好的性能。我们相信我们引入的语料库和流程将为低资源语音识别开辟新的研究途径并极大地促进该领域的研究。

Jun, 2024

通过低成本数据策略提升印度TTS系统在实际应用中的词汇外表现

改善低资源语言的TTS系统，通过使用便宜的志愿者录制训练数据中未见过的字符二元组，提高模型在未登录词上的性能。

Jul, 2024

LAHAJA：评估印地语自动语音识别系统的多口音基准

本研究针对印地语自动语音识别（ASR）系统在多口音下评估的不足，提出了LAHAJA基准，包含了来自132名讲者的12.5小时各种主题的印地语音频。研究发现，基于多语言和良好讲者多样性的训练模型显著优于现有模型，并指出在北东和南印度讲者的表现尤其较差，特别是在涉及命名实体和专业术语的内容中。

Aug, 2024