EMNLPOct, 2022
基于 Transformer 的语言学知识的梵文分词器 TransLIST
TransLIST: A Transformer-Based Linguistically Informed Sanskrit Tokenizer
Jivnesh Sandhan, Rathin Singha, Narein Rao, Suvendu Samanta, Laxmidhar Behera...
TL;DR本文提出了基于 Transformer 的新方法(TransLIST)来应对 Sanskrit Word Segmentation 中的挑战,该方法结合了专门针对 SWS 的 sandhi 现象的 latent-word 信息,使用了新颖的软蒙版注意力机制来优先考虑潜在的候选词,并使用了新颖的路径排名算法来修正错误的预测,并且实验证明 TransLIST 在 PM 度量标准上的表现优于当前最先进的系统,平均提高了 7.2 个百分点。