他眨眼还是点头？用于评估语言模型词语理解能力的挑战性基准测试

ACLFeb, 2021

他眨眼还是点头？用于评估语言模型词语理解能力的挑战性基准测试

Does He Wink or Does He Nod? A Challenging Benchmark for Evaluating Word Understanding of Language Models

Lutfi Kerem Senel, Hinrich Schütze

TL;DR通过填空式洞察问题查询语言模型，以评估其获取的语言知识类型。现有的洞察数据集主要关注单词与实体之间的关系。本文提出 WDLMPro 直接使用单词的字典定义来评估单词的理解，并发现三种受欢迎的预训练语言模型难以匹配单词及其定义，这表明它们对许多单词的理解存在缺陷，新的洞察任务是一个具有挑战性的问题，可以帮助未来的 LMs 研究。

Abstract

Recent progress in pretraining language models on large corpora has resulted in large performance gains on many nlp tasks. These large models acquire →

pretraining language models nlp tasks linguistic knowledge wdlmpro dictionary definitions

发现论文，激发创造

WinoDict: 探究语言模型的上下文词汇习得能力

本文介绍了一种新的上下文学习范例，以测量大型语言模型在推理过程中学习新单词的能力，并通过 Winograd 风格的共指解决问题提出了基准测试，探讨了 LLMs 的时序退化现象和其限制。

Sep, 2022

探究不同 NLP 任务对机器关于虚词理解方面的学习

本文通过构造一组挑战任务，测试了句子编码器中对功能词语的理解能力，结果显示，在句子编码器的预训练中，语言建模性能表现最佳，支持其广泛用于现有的 NLP 模型预训练，而 CCG 超标记和自然语言推理的预训练表现相当。

Apr, 2019

使用语义级别精度和扩展词汇探究预训练语言模型中常识知识

本研究探讨了如何在大型语言模型中丰富常识知识，并提出了一种基于 WordNet 的实化感知库对语言模型进行增强的方法，从而提高掩蔽式任务的预测精度。通过自我监督学习，在不进行进一步训练的情况下，实现了从 WordNet、WikiData 和 ConceptNet 中获取非平凡的常识知识，并比类似的基于相似性的方法更加有效。

Oct, 2022

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

语言模型的知识如何得知？

本文提出使用基于挖掘和释义的自动化方法来生成高质量且多样化的提示语，并使用模型集成的方法来改进语言模型（LM）中的关系知识的查询。通过 LAMA 基准测试表明，该方法将 LM 的准确性从 31.1% 提升至 39.6%，为 LM 的知识提供了更严格的下限估计。

Nov, 2019

通过填空测试评估机器常识

通过对语言模型的表现的一系列测试和测量，本文揭示语言模型的强项与局限，提出了利用填空测试结合词嵌入来度量 LM 的鲁棒性和置信度，结果显示语言模型虽然能够实现类人的准确性，但其置信度不足。将来的工作可以利用这一信息来构建更复杂的系统，如符号和分布式知识的集合。

Jan, 2022

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022

重构 - 探索法：一种对预训练语言模型进行生物医学知识探测的对比性方法

本研究采用对比探针法，探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制，并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法，其中 Contrastive-Probe 方法的性能表现优于其他方法，为此领域更合适的探针技术的发展提供了启示。

Oct, 2021

探究 Probing 方法范式：精度是否意味着任务相关性？

本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响，证明模型可以学习到语言属性，而预训练的词嵌入对于编码这些属性起着重要作用。

May, 2020