GrowOVER：LLM 如何适应不断增长的现实世界知识？

ACLJun, 2024

GrowOVER：LLM 如何适应不断增长的现实世界知识？

GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge?

Dayoon Ko, Jinyoung Kim, Hahyeon Choi, Gunhee Kim

TL;DR提出了 GrowOVER-QA 和 GrowOVER-Dialogue 两种备受关注的动态开放领域问答和对话基准模型，通过持续更新以跟上知识的快速演变，解决了现有知识数据集过时的问题。引入了一种新颖的互动检索语言模型框架，使语言模型能够评估和反思其答案以进行进一步的重新检索，显著改善了现有方法，在性能上与或甚至超过持续训练的语言模型。

Abstract

In the real world, knowledge is constantly evolving, which can render existing knowledge-based datasets outdated. This unreliability highlights the critical need for continuous updates to ensure both accuracy and relevance in →

knowledge-intensive tasks continuous updates retrieval-augmented language models dynamic open-domain qa continuous cycle of updates

发现论文，激发创造

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

抓住时机：关于终身语言模型中世界知识评估的研究

为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题，我们引入了一个新颖的基准测试，EvolvingQA，它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力，通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现，现有的持续学习基准在更新和遗忘过时知识方面存在困难，主要是由于小的权重梯度导致模型无法学习到更新的知识。此外，我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模，并为语言模型的演进适应能力提供了一个强有力的度量。

Nov, 2023

在线连续知识学习的语言模型

在这篇论文中，我们介绍了一个新的问题，在持续学习领域中称为 “在线持续知识学习（OCKL）”。我们提出了一个新的基准和评估指标，旨在测量新知识获取的速度和先前学到的知识的保留率。通过使用各种最先进的方法进行的实证评估为 OCKL 建立了稳健的基准。我们的结果显示，现有的持续学习方法对于应对 OCKL 提出的独特挑战不足够。我们确定了影响知识获取和保留之间权衡的关键因素，从而推进了我们对如何在不断演化的环境中训练 LLMs 的理解。

Nov, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

从知识图谱中学习为检索增强的大型语言模型规划

使用来自知识图谱的规划数据，我们介绍了一种增强大型语言模型在复杂问答任务中的性能的新框架，通过使用这些数据对 LLMs 进行微调，提高其规划能力，更好地处理涉及检索的复杂 QA 任务。我们的框架在多个数据集上进行评估，包括我们提出的新基准，突出了其有效性和知识图谱派生规划数据的好处。

Jun, 2024

灵活结构化的知识驱动问答

本文提出了一种使用语言模型结合知识进行基于知识的问答的方法，其中包括知识构建方法和深度融合机制，可以优雅地提取结构数据和提高模型性能。

Sep, 2022

大型语言模型中的事实知识系统评估

通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识，本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案，然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs，实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性，并且容易受到对抗性环境的影响。

Oct, 2023

连续更新问答的即插即用适应

提出了一种新颖的 “持续更新问答 (CuQA)” 任务，其对语言模型的有效性进行多次大规模更新的测量，同时保留现有的知识；并引入了插件模块来处理更新，实验证明该方法相对于微调基准线要更有效。

Apr, 2022

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

基于 LMM 的教育问答系统的跨数据知识图构建：以 HCMUT 为案例研究

通过结合大型语言模型（LLMs）和知识图谱（KGs），本研究论文提出了一种自动构建知识图谱的方法，并讨论了在数字教育环境中，LLMs 与 KGs 结合在问答任务中的初步应用。

Apr, 2024