ACLMar, 2022

Cebuano 的基础易读性模型

TL;DR本论文针对菲律宾第二大母语 —— 宿务语,开发了首个基线可读性模型;本文提取了传统或基于表面的特征、基于 Cebuano 拼字书写的音节模式以及多语言 BERT 模型的神经嵌入。结果显示,使用前两个手工语言特征的随机森林模型训练表现最佳,并且使用的特征集和算法类似于以前为菲律宾语可读性评估所获得的结果,表明具有跨语言应用的潜力;为了鼓励在菲律宾诸如宿务语等语言的可读性评估方面进行更多工作,我们公开了代码和数据。