Sep, 2023

GlotScript: 低资源书写系统识别的资源与工具

TL;DRGlotScript是一个开放资源和工具,用于低资源写作系统识别,提供了超过7000种语言的已验证写作系统,并且通过整合现有写作系统资源编制。GlotScript-T是一个涵盖了161个Unicode 15.0脚本的写作系统识别工具,用ISO 15924代码标识脚本,以输入文本返回其脚本分布。该研究还展示了GlotScript的两个用例,支持清理多语言语料库和分析语言模型的标记化,希望成为NLP社区中低资源语言研究的有用资源。