Jul, 2024

CharSS: 梵语词分割的字符级Transformer模型

TL;DR利用字符级Transformer模型进行梵语词分割(CharSS)方法,在三个基准数据集上的实验证明,相对于现有方法,在UoH+SandhiKosh数据集上的分割预测准确性绝对改善幅度为6.72,而在hackathon数据集上则相对现有最佳系统提升了2.27个完全匹配度得分。此外,在使用基于梵语分词的片段进行技术术语的语言学翻译任务中,分别实现了8.46和6.79 chrF++分数的平均改进。