BriefGPT.xyz
Oct, 2024
团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交
Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization
HTML
PDF
Zilong Li
TL;DR
本研究解决了子词标记化中语义分割方法的有效性,特别是在SIGMORPHON 2024取消的共享任务中。本文采用了统计分割方法Morfessor和基于变换器的序列到序列模型,发现形态分割法与常用子词标记处理方法的效果相当。此外,研究表明,词汇的平衡分布能显著优化语言模型的表现。
Abstract
This papers presents the submission of team Ryu to the canceled SIGMORPHON 2024 shared task on
Subword Tokenization
. My submission explores whether
Morphological Segmentation
methods can be used as a part of subw
→