IndicVoices：为印度语言构建一个包容性的多语言语音数据集

Mar, 2024

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages

Tahir Javed, Janki Atul Nawale, Eldho Ittan George, Sakshi Joshi, Kaushal Santosh Bhogale...

TL;DR我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Abstract

We present indicvoices, a dataset of natural and spontaneous speech containing a total of 7348 hours of read (9%), extempore (74%) and con

indicvoices dataset speech indian districts languages

发现论文，激发创造

Vakyansh: 适用于资源稀缺的印度语言的 ASR 工具包

Vakyansh 是一个 Indic 语言语音识别端到端工具包，通过自动数据流水线实现数据创建，训练和部署，提供了适应于 18 种 Indic 语言的最先进的语音识别模型，并开放了所有这些资源来支持语音开发者社区。

Mar, 2022

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Mar, 2024

IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据，训练出支持所有 22 种印度语言的机器翻译模型，为印度的语言多样性提供广泛且易于访问的机器翻译系统，该研究创造性地提出了四个关键领域的改进，并发布了 BPCC 和 IndicTrans2 等数据资源和模型。

May, 2023

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

SPRING-INX: 由印度马德拉斯理工学院 SPRING Lab 创建的多语言印度语音语料库

印度拥有多种语言，其中有 22 种语言被印度宪法正式认可。为印度人口构建基于语音的应用程序是一个困难的问题，因为数据有限且需要适应不同的语言和口音。为了鼓励语言技术社区在印度语言中构建基于语音的应用程序，我们向开源社区提供了 SPRING-INX 数据，其中包括 2000 小时的合法获取和手动转录的语音数据，用于搭建 ASR 系统。这个努力是由印度理工学院马德拉斯分校的 SPRING 实验室和由印度电子与信息技术部（MeitY）资助的全国语种翻译计划的一部分。本文介绍了数据收集和数据清洗的过程，并提供了数据统计。

Oct, 2023

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

Vistaar: 用于印度语音识别的多元基准和训练集

本文提出了 Vistaar，59 个受试语言和领域组合的基准，用于评估和改进三个公开的 ASR 系统和两个商业系统，同时使用 IndicWhisper 通过在 12 种印度语言上进行微调，在 Vistaar 基准中明显改善了考虑到的 ASR 系统。

May, 2023

Speech Wikimedia：一个包含 77 种语言的多语言语音数据集

维基媒体数据集是一个公开可用的音频和转录汇编，包含来自维基共享资源的 1780 小时（195GB）CC-BY-SA 许可的转录语音，在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录，使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。

Aug, 2023