May, 2023

Taxi1500:1500 种语言文本分类的多语言数据集

TL;DR通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。