ACLMay, 2024

估计方言程度预测多方言阿拉伯数据集的标注者一致性

TL;DR在多方言阿拉伯数据集的标注中,将样本随机分配给一组阿拉伯母语者是常见的。最近的分析推荐将方言样本分配给其各自方言的母语者,以构建更高质量的数据集。然而,自动识别样本的方言是困难的。此研究通过分析 ALDi 得分和标注者一致性之间的关系,在 15 个公共数据集上得出强有力的支持,从而证明了我们的假设。因此,我们建议将高 ALDi 得分的样本优先分配给每个样本方言的本地说话者,并能够以较高精度自动识别方言。