May, 2023
Taxi1500:1500 种语言文本分类的多语言数据集
Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages
Chunlan Ma, Ayyoob ImaniGooghari, Haotian Ye, Ehsaneddin Asgari, Hinrich Schütze
TL;DR通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。