语言模型中学习事实的关键因素是什么？多元化多提示数据的多方面知识探测

Jun, 2024

语言模型中学习事实的关键因素是什么？多元化多提示数据的多方面知识探测

What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets

Xin Zhao, Naoki Yoshinaga, Daisuke Oba

TL;DR大型语言模型 (LLMs) 面临处理事实知识的问题，本研究通过知识探测框架 BELIEF (-ICL)，从多个角度评估编码器型和解码器型大型语言模型对事实知识的理解能力，并利用多样的提示数据集 MyriadLAMA 进行可靠的评估，揭示了大型语言模型在学习事实方面的关键因素和基于提示的知识探测的局限性。

Abstract

large language models (LLMs) face issues in handling factual knowledge, making it vital to evaluate their true ability to understand facts. In this study, we introduce knowledge probing frameworks, BELIEF(-ICL),

large language models knowledge probing frameworks factual knowledge understanding encoder-based plms decoder-based plms

发现论文，激发创造

给我事实！关于预训练语言模型的事实知识探测调查

对预训练语言模型进行事实知识探测的方法和数据集进行了调研，并提出了一种基于输入、输出和被探测模型适应性的事实探测方法分类方案，综合分析了语言模型中的知识保留和提示优化问题，讨论了采用语言模型作为知识库的障碍和未来研究方向。

Oct, 2023

X-FACTR: 预训练语言模型多语言事实知识检索

该研究创建了一个跨 23 种不同语言的多语言基准测试，旨在评估语言模型中的事实知识检索能力，并提出了基于语言切换的方法来提高多语言模型获取知识的能力。

Oct, 2020

LLMs 中可靠的潜在知识估计：与上下文学习相比，基于提示的事实知识提取

我们提出了一种估计大型语言模型中嵌入的潜在知识的方法，该方法利用了大型语言模型的上下文学习能力来估计模型对存储在知识库中的事实的了解程度，并且我们的知识估计器避免了以前的提示式方法中存在的可靠性问题，且在概念上更简单且更易于应用，我们证明它可以揭示出更多嵌入在大型语言模型中的潜在知识。我们还研究了不同设计选择对基于上下文学习的知识估计性能的影响。通过所提出的估计器，我们对各种开源大型语言模型（如 OPT，Pythia，Llama (2)，Mistral，Gemma 等）在来自 Wikidata 知识库的大量关系和事实上的事实知识进行了大规模评估。我们观察到不同模型家族和不同大小的模型之间的事实知识存在差异，某些关系普遍比其他关系更为熟知，但是模型在知识上存在差异，以及基本模型和其微调模型之间的知识差异。

Apr, 2024

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

大型语言模型是否了解事实？

通过设计基准测试 Pinocchio，综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围，研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性，这成为实现可靠人工智能的关键瓶颈。

Oct, 2023

评估大型语言模型知识的可靠性

本文提出了一种名为 MONITOR 的新度量方法，用于直接衡量大型语言模型的事实可靠性，通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明 MONITOR 对于评估大型语言模型的事实可靠性具有良好的效果，并且计算开销较低。此外，作者还发布了包含 210,158 个提示的 FKTC 测试集，以促进相关研究的开展。

Oct, 2023

预训练语言模型中的知识激发对自然语言理解的影响

本研究提出了知识提示范式和基于知识提示的 Pre-trained 语言模型 KP-PLM 框架，该框架通过多种连续提示规则将知识子图转化为自然语言提示，并在这些提示的基础上提出了两个新的知识感知无监督任务，实验证明了 KP-PLM 在多个自然语言理解任务中的优越性。

Oct, 2022

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

事实探究是什么：学习 vs 学习回想

本文主要介绍了使用 cloze-style prompts 和 OptiPrompt 等方式，旨在通过预训练语言模型来检索世界事实，并使用 fact prediction 等方式来确定模型预测准确性，并考虑这些 probing 结果是否被解释为下界，而不是固化自己的 prompt 方法从训练数据中获得的信息。

Apr, 2021

在大型语言模型中测量和修改实体知识

本文提出了信息理论量化大型语言模型中现实知识的方法，评估了其与现有排名法的精度，并探究了两种前沿知识安装方法在特定情况下的限制，最后通过应用在上下文学习中，证明了该方法可以用来提取 LLM 中未学习和错学的事实。

Jun, 2023