COLINGApr, 2024

Killkan: 具有形态句法信息的基准 Kichwa 自动语音识别数据集

TL;DRKillkan 是第一个专注于 Kichwa 语(厄瓜多尔的一种土著语言)的自动语音识别(ASR)数据集,包含约 4 小时的音频及转录、西班牙语翻译和形态句法注释等信息,旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析,特别关注 Kichwa 语的合成构词和与西班牙语的频繁语码混用,实验证明即使数据集规模较小,也能实现可靠质量的 Kichwa 语 ASR 系统的开发。该数据集、ASR 模型和开发所使用的代码将公开提供,积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。