团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交

Oct, 2024

团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交

Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization

Zilong Li

TL;DR本研究解决了子词标记化中语义分割方法的有效性，特别是在SIGMORPHON 2024取消的共享任务中。本文采用了统计分割方法Morfessor和基于变换器的序列到序列模型，发现形态分割法与常用子词标记处理方法的效果相当。此外，研究表明，词汇的平衡分布能显著优化语言模型的表现。

Abstract

This papers presents the submission of team Ryu to the canceled SIGMORPHON 2024 shared task on Subword Tokenization. My submission explores whether Morphological Segmentation methods can be used as a part of subw