Apr, 2024

您的 LLM 已过时吗?时间敏感知识的 LLM 与对齐算法的基准测试

TL;DR将大规模语言模型作为知识库,我们研究了其随时间推移保持事实知识的适当性。我们设计了一个动态基准来识别过时的知识,并通过实时从 Wikidata 检索的时间敏感领域政治、体育和组织的信息评估了 18 种开源和闭源的最先进大规模语言模型。我们评估了知识编辑方法与检索增强生成在与最新事实知识对齐方面的效果,并通过共享代码、数据集以及评估和可视化脚本将这个动态基准用于评估大规模语言模型的及时性,并可扩展至其他领域。