Aug, 2023

GRDD: 希腊方言 NLP 数据集

TL;DR此研究论文介绍了一个用于计算研究现代希腊方言的数据集,其中包括克里特岛、庇安提、北希腊和塞浦路斯希腊四种方言的原始文本数据。该数据集规模相当大,尽管存在不平衡问题,但是它是第一个针对现代希腊方言创造大规模方言资源的尝试。我们使用该数据集进行方言识别,并进行了传统机器学习算法和简单深度学习架构的实验。结果表明,这些方言在任务中具有足够独特的特征,即使是简单的机器学习模型也能表现出很好的性能。对表现最佳算法进行误差分析后发现,在一些情况下错误是由于数据集清理不足造成的。