通过填空测试评估机器常识

Jan, 2022

Evaluating Machine Common Sense via Cloze Testing

Ehsan Qasemi, Lee Kezar, Jay Pujara, Pedro Szekely

TL;DR通过对语言模型的表现的一系列测试和测量，本文揭示语言模型的强项与局限，提出了利用填空测试结合词嵌入来度量 LM 的鲁棒性和置信度，结果显示语言模型虽然能够实现类人的准确性，但其置信度不足。将来的工作可以利用这一信息来构建更复杂的系统，如符号和分布式知识的集合。

Abstract

language models (LMs) show state of the art performance for common sense (CS) question answering, but whether this ability implies a human-level mastery of CS remains an open question. Understanding the limitations and strengths of LMs can help researchers improve these models, potenti

language models common sense question answering robustness confidence knowledge integration

发现论文，激发创造

使用语义级别精度和扩展词汇探究预训练语言模型中常识知识

本研究探讨了如何在大型语言模型中丰富常识知识，并提出了一种基于 WordNet 的实化感知库对语言模型进行增强的方法，从而提高掩蔽式任务的预测精度。通过自我监督学习，在不进行进一步训练的情况下，实现了从 WordNet、WikiData 和 ConceptNet 中获取非平凡的常识知识，并比类似的基于相似性的方法更加有效。

Oct, 2022

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021

超越英语的常识：评估和改进多语言常识推理语言模型

为了促进通识推理（CSR）的进一步发展，作者提出了用于评估和改进流行的多语言语言模型（ML-LMs）的方法，其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练（MCP）的有效性。作者还创建了两个新数据集，X-CSQA 和 X-CODAH，以评估流行的 ML-LMs 用于跨语言通识推理的能力。

Jun, 2021

了解大型语言模型在文化常识方面的能力和局限性

通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验，我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异，其通用常识能力受到文化环境的影响，并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现，我们的研究指出了大型语言模型在文化理解方面的固有偏见，并提供了帮助开发具备文化意识的语言模型的洞见。

May, 2024

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

LLM 认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断，并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023

预测下一个单词：人类在此任务中表现出的不确定性及语言模型

语言模型相对于人类生成的文本是否准确地表达语言变异性，以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。

Feb, 2024

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

人与机：重新思考自然语言模型的蕴涵验证

该研究通过比较人类和大型语言模型（LLMs）之间的推理判断的共性和差异，以及对三个类别（NLI、contextual QA 和 rationales）的多个数据集进行评估，揭示了 LLMs 在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势，并引入了一种经过精细调整的 Flan-T5 模型来提高自洽性，在三个多项选择问答数据集上平均提高了 6% 的性能。

Feb, 2024

语言模型作为事实检查员？

本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法，并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线，而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法，但我们相信我们的探索显示出这种方法是可行的，并且有很大的发展空间。

Jun, 2020