May, 2023

PrOnto: 对 859 种语言的语言模型评估

TL;DR该论文提出了一种新的评估数据集创建方法,将英语 New Testament OntoNotes 数据库中的数据与其他语言中的 New Testament 翻译进行对齐,在无需手动注释的情况下将注释从英语映射到目标语言,以创建适用于预训练语言模型评估的套件。作者在 859 种语言中应用了这种方法,共创建了 1051 个数据集,并证明了这种方法创建的评估任务可以评估语言模型的质量。