Jul, 2024

阿拉伯语可读性建模策略

TL;DR本文利用不同的方法从基于规则的方法到预训练的阿拉伯语言模型,针对阿拉伯语可读性评估提供了一系列实验结果。我们在不同的文本粒度级别(单词和句子片段)上报告了新创建的语料库上的结果。我们的结果表明,结合不同的技术可以取得最佳结果,在盲测集上的宏F1分数在单词级别为86.7,在片段级别为87.9。我们公开提供我们的代码、数据和预训练模型。