ACLFeb, 2024

词汇语义变化的上下文化词嵌入系统比较

TL;DR现有的 LSC 问题评估通常集中在 Graded Change Detection (GCD) 任务上,但由于它们依赖不同的设置,性能比较往往会误导。本研究在相同的条件下评估了最先进的 GCD 模型和方法,并将 LSC 问题分解为 Word-in-Context (WiC) 和 Word Sense Induction (WSI) 任务,在不同语言上对八个可用的 LSC 基准进行了比较,表明 (i) APD 在 GCD 方面优于其他方法;(ii) XL-LEXEME 在 WiC、WSI 和 GCD 方面优于其他上下文化模型,与 GPT-4 相当;(iii) 需要明确改进词义建模以及关注词义变化的方式、时间和原因,而不仅仅关注语义变化的程度。