ALCUNA:大型语言模型迎接新知识
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估 21 个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023
大型语言模型(LLMs)在可靠性方面通常存在不可靠的幻觉。在本文中,我们定义了一项名为知识感知语言模型归因(KaLMA)的新任务,它改进了传统归因语言模型的三个核心问题。
Oct, 2023
该研究论文介绍了 Text2KGBench 这个基准评估工具,可以评估语言模型的能力,从自然语言文本中生成知识图谱,并根据本体论从文本中提取事实。研究还提供了基准模型的结果和显示了使用语义网和自然语言处理技术,可以进一步提高模型性能的潜力。
Aug, 2023
本研究评估了大语言模型的自我认知能力,通过引入自主问答数据集和一种自动化方法来检测不能回答的问题,研究发现大语言模型具有一定的自我认知能力,可以通过上下文学习和指导调整进一步提高其自我认知。但是,研究还发现,这些模型与人类在识别知识限制方面存在明显差距。
May, 2023
本论文探讨了大型语言模型在理解自己的知识和衡量自身不确定性方面的能力,并提供了一个新的已知 - 未知问题数据集以及一个分类方法来解释不确定性的来源。通过评估 LM 在分类已知和未知问题以及在开放式问题回答中的质量方面,量化了 LM 表达答案中的不确定性的方法。
May, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估 LLMs 的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了 KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在 KGQuiz 基准测试中对十种开源和黑盒 LLMs 进行广泛实验,我们发现 LLMs 在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将 KGQuiz 视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进 LLMs 在广泛知识领域和任务中的知识能力。
Oct, 2023
将大规模语言模型作为知识库,我们研究了其随时间推移保持事实知识的适当性。我们设计了一个动态基准来识别过时的知识,并通过实时从 Wikidata 检索的时间敏感领域政治、体育和组织的信息评估了 18 种开源和闭源的最先进大规模语言模型。我们评估了知识编辑方法与检索增强生成在与最新事实知识对齐方面的效果,并通过共享代码、数据集以及评估和可视化脚本将这个动态基准用于评估大规模语言模型的及时性,并可扩展至其他领域。
Apr, 2024
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023