May, 2022

Aksharantar: 为未来十亿用户构建开放的音译工具

TL;DR本文介绍了 Aksharantar,它是 21 种印度语言中最大的公开可用的音译数据集,包含 2600 万个音译对。我们使用从大型单语和平行语料库中挖掘音译对,并采集人工注释以确保具有不同单词和低资源语言的多样性。我们在 Aksharantar 训练集上训练了 IndicXlit 模型,它是一种单一的基于 transformer 的多语言音译模型,支持 21 种印度语言。它在 Dakshina 测试集上取得了最先进的结果,并在与此工作一起发布的 Aksharantar 测试集上建立了强大的基线。