Apr, 2024

数据分区策略对模型泛化性能的影响:形态分割案例研究

TL;DR本研究在 19 种语言中使用数据,包括 10 种土著或濒危语言,在多样的形态系统(多合一的、融合的和粘着的)和不同的数据可用性下,以不同大小的训练和评估集的组合以及新的测试数据进行大规模实验,结果显示:(1)从随机拆分训练的模型能够取得更高的数值分数;(2)从随机拆分导出的模型排名倾向于更加一致地推广。