Mar, 2024

LSCD 基准:一个历时词义任务的测试平台

TL;DR词汇语义变化检测 (LSCD) 是一个复杂的基于词元级的任务,它通常是基于两个后续应用的用法级任务来操作的:首先,对使用对生成上下文的词 (WiC) 进行标注,然后将这些标签表示为图形,在图上应用词义归纳 (WSI) 来生成语义聚类。最后,通过比较不同时期的语义聚类来得到 LSCD 的标签。这种模块化体现在大多数 LSCD 数据集和模型中,它也导致建模选项和任务定义的异质性很大,而这种异质性又被各种数据集版本、预处理选项和评估指标所加剧。这种异质性使得很难在可比较的条件下评估模型,选择最佳的模型组合或者复现结果。因此,我们提供了一个标准化 LSCD 评估的基准库。通过透明的实现,结果变得易于复现,并且通过标准化不同组件可以自由组合。该库反映了该任务的模块化特性,允许对 WiC、WSI 和 LSCD 进行模型评估。这为对越来越复杂的模型组件进行仔细评估提供了新的优化方式。