大型语言模型作为可靠的知识库?
本文回顾了最近关于使用预先训练的自然语言处理语言模型作为知识库的文献,提出了应该具备的一些方面,探讨了这种方法相较于传统知识库的优势在于无需人工监督进行的无监督学习。
Apr, 2022
本研究评估了大语言模型的自我认知能力,通过引入自主问答数据集和一种自动化方法来检测不能回答的问题,研究发现大语言模型具有一定的自我认知能力,可以通过上下文学习和指导调整进一步提高其自我认知。但是,研究还发现,这些模型与人类在识别知识限制方面存在明显差距。
May, 2023
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越Borel层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
通过Head-to-Tail基准测试,我们评估了14个公开可用的大型语言模型在掌握事实性知识方面的表现,发现现有的大型语言模型在掌握中间到较不常见的实体的事实方面仍有很大的改进空间。
Aug, 2023
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估LLMs的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行广泛实验,我们发现LLMs在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将KGQuiz视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。
Oct, 2023
本文提出了一种名为MONITOR的新度量方法,用于直接衡量大型语言模型的事实可靠性,通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明MONITOR对于评估大型语言模型的事实可靠性具有良好的效果,并且计算开销较低。此外,作者还发布了包含210,158个提示的FKTC测试集,以促进相关研究的开展。
Oct, 2023
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
大型语言模型在理解和生成复杂查询方面表现出了卓越的能力,但它们在存储、回忆和推理大规模结构化知识方面的有效性仍有待研究,本研究发现虽然大型语言模型有望作为大规模知识库灵活地检索和回答问题,但需要增强它们的推理能力以充分发挥潜力。
Feb, 2024
我们提出了一种估计大型语言模型中嵌入的潜在知识的方法,该方法利用了大型语言模型的上下文学习能力来估计模型对存储在知识库中的事实的了解程度,并且我们的知识估计器避免了以前的提示式方法中存在的可靠性问题,且在概念上更简单且更易于应用,我们证明它可以揭示出更多嵌入在大型语言模型中的潜在知识。我们还研究了不同设计选择对基于上下文学习的知识估计性能的影响。通过所提出的估计器,我们对各种开源大型语言模型(如OPT,Pythia,Llama(2),Mistral,Gemma等)在来自Wikidata知识库的大量关系和事实上的事实知识进行了大规模评估。我们观察到不同模型家族和不同大小的模型之间的事实知识存在差异,某些关系普遍比其他关系更为熟知,但是模型在知识上存在差异,以及基本模型和其微调模型之间的知识差异。
Apr, 2024
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024