Jun, 2024

多个来源胜过一个:在低资源词汇标注中整合外部知识

TL;DR通过协调多个语言专业知识源,我们解决了低资源语言自动数据驱动预览中的数据稀缺问题,并在词级准确性方面获得了 5 个百分点的平均绝对改进,对横跨六种低资源语言的多样化数据集而言,这些增强在最低资源的 Gitksan 语言中表现尤为明显,我们实现了 10 个百分点的改进。此外,在相同六种语言的模拟超低资源环境中,仅在少于 100 个含义标注句子上训练下,我们在词级准确性方面获得了 10 个百分点的平均改进,超越了以往最先进系统的水平。