EMNLPOct, 2022

基于 Transformer 的语言学知识的梵文分词器 TransLIST

TL;DR本文提出了基于 Transformer 的新方法(TransLIST)来应对 Sanskrit Word Segmentation 中的挑战,该方法结合了专门针对 SWS 的 sandhi 现象的 latent-word 信息,使用了新颖的软蒙版注意力机制来优先考虑潜在的候选词,并使用了新颖的路径排名算法来修正错误的预测,并且实验证明 TransLIST 在 PM 度量标准上的表现优于当前最先进的系统,平均提高了 7.2 个百分点。