Oct, 2024

团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交

TL;DR本研究解决了子词标记化中语义分割方法的有效性,特别是在SIGMORPHON 2024取消的共享任务中。本文采用了统计分割方法Morfessor和基于变换器的序列到序列模型,发现形态分割法与常用子词标记处理方法的效果相当。此外,研究表明,词汇的平衡分布能显著优化语言模型的表现。