May, 2023
350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用
LIMIT: Language Identification, Misidentification, and Translation using Hierarchical Models in 350+ Languages
Milind Agarwal, Md Mahfuz Ibn Alam, Antonios Anastasopoulos
TL;DR通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型,我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题,可用于短文本的语言识别和印度或非洲语言之间的研究。