EMNLPJun, 2024

双向 Transformer:(西班牙语)上下文中的多义词的表示:新的词汇资源和实证分析

TL;DR通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与英语不同,我们发现在西班牙语中,模型规模与性能之间没有相关性。此外,我们还发现了目标名词消歧的陈规轨迹,并在英语中部分复制了这一结果。我们贡献了(1)一组包含人类相关性判断的西班牙语句子刺激数据集,以及(2)认识到语言模型规格(结构,训练方案)对语境化嵌入的影响。