您的 LLM 已过时吗？时间敏感知识的 LLM 与对齐算法的基准测试

Apr, 2024

您的 LLM 已过时吗？时间敏感知识的 LLM 与对齐算法的基准测试

Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge

Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi

TL;DR将大规模语言模型作为知识库，我们研究了其随时间推移保持事实知识的适当性。我们设计了一个动态基准来识别过时的知识，并通过实时从 Wikidata 检索的时间敏感领域政治、体育和组织的信息评估了 18 种开源和闭源的最先进大规模语言模型。我们评估了知识编辑方法与检索增强生成在与最新事实知识对齐方面的效果，并通过共享代码、数据集以及评估和可视化脚本将这个动态基准用于评估大规模语言模型的及时性，并可扩展至其他领域。

Abstract

We study the appropriateness of large language models (LLMs) as knowledge repositories. We focus on the challenge of maintaining LLMs' factual knowledge up-to-date over time. Motivated by the lack of studies on identifying outdated knowledge within LLMs, we design and develop a

large language models knowledge repositories outdated knowledge dynamic benchmark up-to-date factual knowledge

发现论文，激发创造

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

TemporalWiki：面向训练与评估不断进化语言模型的终身基准

通过使用连续快照之间的差异作为训练和评估数据，我们介绍了一个终身学习基准测试 ——TemporalWiki，旨在评估语言模型在频繁更新的知识库，如维基百科，中获取和保留知识的能力，并发现通过继续学习方法使用 diff 数据进行训练可以通过少量的训练数据安全地更新 LM 中的事实知识。

Apr, 2022

基于时间感知的语言模型作为时态知识库

介绍了一个用于探讨语言模型在知识更新方面的诊断数据集，提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”，而无需从头开始重新训练。

Jun, 2021

大型语言模型如何捕捉不断变化的世界知识？近期进展综述

对大型语言模型（LLMs）与不断变化的世界知识进行对齐的最新进展进行了全面回顾，分类研究作品并提供深入比较和讨论，同时讨论现有挑战并突出未来的研究方向。

Oct, 2023

Eva-KELLM: 一个用于评估 LLMs 的知识编辑的新基准

评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM，采用原始文档进行知识编辑，从多个角度评估其效果，研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。

Aug, 2023

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

KoLA：大型语言模型世界知识的精细基准测试

我们构建了一种基于知识导向的大型语言模型评估基准，并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较，评估 21 个开源和商业大型语言模型的能力和知识相关度。

Jun, 2023

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

ALCUNA：大型语言模型迎接新知识

提出了一个名为 KnowGen 的方法来生成新知识，并引入了一个名为 ALCUNA 的基准来评估大规模语言模型在处理新知识方面的能力，发现它们在处理新知识的推理方面表现不佳，并探索了实体相似性对模型对实体知识的理解以及上下文实体的影响。

Oct, 2023

RECALL: LLM 鲁棒性对外部反事实知识的基准测试

LLMs 与 AI 聊天机器人在提升人们在各个领域的效率方面发挥了作用，然而，回答问题所需的知识可能超出模型自身所具备的知识范围，因此有迫切需要让 LLMs 能够区分外部知识中可靠信息和对模型产生干扰的反事实信息以解决这个问题。

Nov, 2023