Apr, 2024

当下词干化方法的比较:爱沙尼亚语的案例研究

TL;DR本研究评估了三种不同的爱沙尼亚词形还原方法 —— 基于生成字符级模型、基于模式的单词级分类模型和基于规则的形态分析。根据我们的实验结果,一个明显较小的生成模型在所有基于 EstBERT 的基于模式的分类模型中一致表现更好。此外,我们观察到三种模型所产生的错误之间存在相对较小的重叠,表明使用不同方法的集成可能会带来改进。