May, 2023

Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别

TL;DR我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别(LID)数据集和模型,并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。