Sep, 2021

文本可读性评估:变形金刚与手工语言特征的结合

TL;DR本文介绍了两个优化可读性评估的方法:1. 引入三个新的高级语义特征 2. 明确传统的 ML 模型(如随机森林)可以与 transformers(如 RoBERTa)结合来提高模型性能,通过使用自行开发的特征提取软件提取 255 个特征并构建了几个混合模型,在流行的可读性评估数据集上实现了最先进的准确性。其中手工制作的特征有助于提高小型数据集的模型性能。值得注意的是,我们的 RoBERTA-RF-T1 混合模型实现了近乎完美的 99%分类精度,比之前最先进的模型提高了 20.3%。