EMNLPOct, 2023

BasahaCorpus:用于中部菲律宾语言易读性评估的扩展语言资源

TL;DR在菲律宾的低资源语言中,为了扩大可用的语料库和可读性评估的基线模型,我们介绍和发布了 BasahaCorpus,编制了一组用于训练表层特征、音节模式和 n-gram 重叠特征的 ARA 模型的短篇虚构故事的语料库,还提出了一种新的层次化跨语言建模方法,利用语言在语系树种的位置来增加可用的训练数据。我们的研究取得了令人鼓舞的结果,支持先前工作展示了跨语言模型在低资源环境中的有效性,以及相互可理解语言的高信息语言特征的相似性。