May, 2023

面向大规模多领域多语言可读性评估

TL;DR本文介绍了 ReadMe++,这是一种用于自动可读性评估的大规模多领域多语言数据集,提供了手动标注的 6,330 个句子,涵盖了阿拉伯语、英语和印地语等几种语言,采用了句子级别的注释方法,并使用了 CEFR 和 Rank-and-Rate 注释框架来减少注释主观性。试验结果显示,使用 ReadMe++ 微调的模型具有强大的跨语言传递能力和对未知领域的泛化能力。