May, 2024

多语言基于替代的词义归纳

TL;DR通过群集将一个多义词的用法分组成对应的几个义项,以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法,无需或仅需很少调整就能适应不同语言,这些方法在流行的英语 WSI 数据集上与现有的单语方法性能相当,为缺乏英语词汇资源的低资源语言提供了有用的无监督方法。