ACLFeb, 2021

他眨眼还是点头?用于评估语言模型词语理解能力的挑战性基准测试

TL;DR通过填空式洞察问题查询语言模型,以评估其获取的语言知识类型。现有的洞察数据集主要关注单词与实体之间的关系。本文提出 WDLMPro 直接使用单词的字典定义来评估单词的理解,并发现三种受欢迎的预训练语言模型难以匹配单词及其定义,这表明它们对许多单词的理解存在缺陷,新的洞察任务是一个具有挑战性的问题,可以帮助未来的 LMs 研究。