GraphReader: 基于图的智能体构建以增强大型语言模型的长上下文能力

Jun, 2024

GraphReader: 基于图的智能体构建以增强大型语言模型的长上下文能力

GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models

Shilong Li, Yancheng He, Hangyu Guo, Xingyuan Bu, Ge Bai...

TL;DRGraphReader 是一个基于图的代理系统，能够处理长篇文本，并在 LV-Eval 数据集上表现出优异性能。

Abstract

long-context capabilities are essential for large language models (LLMs) to tackle complex and long-input tasks. Despite numerous efforts made to optimize LLMs for long contexts, challenges persist in robustly pr

long-context capabilities large language models graphreader graph-based agent system lv-eval dataset

发现论文，激发创造

一个受人类启发的具有大量长期上下文的主要记忆的阅读代理

通过使用先进的语言模型的高级语言能力，ReadAgent 系统提出来解决当前大型语言模型的上下文长度限制以及长输入的问题，并通过将内容存储到内存片段中，将其压缩为称为要点内存的短暂记忆，并在需要时在原始文本中查找相关细节，从而在三个长文档阅读理解任务上胜过基线方法，同时将有效上下文窗口增加了 3-20 倍。

Feb, 2024

LongAgent: 通过多智能体协作将语言模型扩展至 128k 上下文

通过多智能体协作的方法，我们提出了一种名为 LongAgent 的方法，将大型语言模型（例如 LLaMA）的上下文窗口扩展到 128K，并在长文本处理方面展示了相对于 GPT-4 的潜在优势。LongAgent 中，一个领导者负责理解用户意图并指导团队成员从文档中获取信息。通过开发一种成员间的信息共享机制来解决因幻觉引起的回应冲突，我们的实验结果表明 LongAgent 在长文本处理方面提供了一种有希望的选择。使用 LLaMA-7B 实例化的智能体团队相较于 GPT-4 在 128k 长文本检索、多跳问题回答等任务中取得了显著的改进。

Feb, 2024

走入记忆迷宫：通过互动阅读突破环境限制

我们提出了 MemWalker，这是一种将长上下文处理成摘要节点树的方法，模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题，在长文本问答任务上，我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本，MemWalker 还提升了解释能力，突出了推理步骤，并准确指出与查询相关的文本片段。

Oct, 2023

智能代理链：大型语言模型在长文本任务上的协作

通过多个代理的协作，链式代理（CoA）框架能够处理长上下文任务，凭借信息聚合和上下文推理，有效提升任务质量。

Jun, 2024

图文融合：图推理在文本空间中

通过一种新的框架 GraphText，将图形转化为自然语言，无需图数据训练，能够实现与监督训练图神经网络相媲美甚至超越其性能的图推理，同时为人类和大型语言模型提供了与模型无缝交流的方式，突显了大型语言模型在图机器学习领域尚未探索的巨大潜力。

Oct, 2023

背景问题：基于图结构知识背景推动开放式回答生成的边界

通过引入图驱动的上下文检索和基于知识图谱的增强来提高大型语言模型的能力，特别是在特定领域的社区问答平台中，提供上下文丰富的数据检索与大型语言模型的配对，为 AI 系统中的知识获取和生成带来了一种新的方法。

Jan, 2024

评估 LLM 代理商的非常长期对话记忆

通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联，我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话，并通过人类注释者对其进行检验和编辑，以确保其长程一致性和对事件图的关联。通过这个管道，我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集，我们提出了一个全面的评估基准来衡量模型中的长期记忆，在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明，LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进，但这些模型仍然远远落后于人类的性能。

Feb, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024

图上的大型语言模型：综合调查

通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾，我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点，并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后，我们提出了这一快速发展领域的潜在未来研究方向。

Dec, 2023

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023