ACLJun, 2023

通过 HEROS 揭示句子编码器评估的盲点

TL;DR通过构建一个高质量的 SE 诊断数据集 HEROS,在系统比较了 60 多个监督和无监督的 SE 在 HEROS 上的表现后,我们发现大多数无监督的句子编码器对否定不敏感,并且发现用于训练 SE 的数据集是决定 SE 认为哪些句子对相似的主要因素,同时揭示了传统 STS 基准测试在评估 SE 时的盲点。