Oct, 2023

SPRING-INX: 由印度马德拉斯理工学院 SPRING Lab 创建的多语言印度语音语料库

TL;DR印度拥有多种语言,其中有 22 种语言被印度宪法正式认可。为印度人口构建基于语音的应用程序是一个困难的问题,因为数据有限且需要适应不同的语言和口音。为了鼓励语言技术社区在印度语言中构建基于语音的应用程序,我们向开源社区提供了 SPRING-INX 数据,其中包括 2000 小时的合法获取和手动转录的语音数据,用于搭建 ASR 系统。这个努力是由印度理工学院马德拉斯分校的 SPRING 实验室和由印度电子与信息技术部(MeitY)资助的全国语种翻译计划的一部分。本文介绍了数据收集和数据清洗的过程,并提供了数据统计。