LongAgent: 通过多智能体协作将语言模型扩展至 128k 上下文

Feb, 2024

LongAgent: 通过多智能体协作将语言模型扩展至 128k 上下文

LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He...

TL;DR通过多智能体协作的方法，我们提出了一种名为 LongAgent 的方法，将大型语言模型（例如 LLaMA）的上下文窗口扩展到 128K，并在长文本处理方面展示了相对于 GPT-4 的潜在优势。LongAgent 中，一个领导者负责理解用户意图并指导团队成员从文档中获取信息。通过开发一种成员间的信息共享机制来解决因幻觉引起的回应冲突，我们的实验结果表明 LongAgent 在长文本处理方面提供了一种有希望的选择。使用 LLaMA-7B 实例化的智能体团队相较于 GPT-4 在 128k 长文本检索、多跳问题回答等任务中取得了显著的改进。

Abstract

large language models (LLMs) have demonstrated impressive performance in understanding language and executing complex reasoning tasks. However, LLMs with long context windows have been notorious for their expensive training costs and high inference latency. Even the most advanced model

large language models longagent multi-agent collaboration long-text processing llama

发现论文，激发创造

智能代理链：大型语言模型在长文本任务上的协作

通过多个代理的协作，链式代理（CoA）框架能够处理长上下文任务，凭借信息聚合和上下文推理，有效提升任务质量。

Jun, 2024

一个受人类启发的具有大量长期上下文的主要记忆的阅读代理

通过使用先进的语言模型的高级语言能力，ReadAgent 系统提出来解决当前大型语言模型的上下文长度限制以及长输入的问题，并通过将内容存储到内存片段中，将其压缩为称为要点内存的短暂记忆，并在需要时在原始文本中查找相关细节，从而在三个长文档阅读理解任务上胜过基线方法，同时将有效上下文窗口增加了 3-20 倍。

Feb, 2024

GraphReader: 基于图的智能体构建以增强大型语言模型的长上下文能力

GraphReader 是一个基于图的代理系统，能够处理长篇文本，并在 LV-Eval 数据集上表现出优异性能。

Jun, 2024

评估 LLM 代理商的非常长期对话记忆

通过使用基于 LLM 的代理体系结构和将对话与人物和时间事件图进行关联，我们介绍了一个机器 - 人类管道来生成高质量的非常长期的对话，并通过人类注释者对其进行检验和编辑，以确保其长程一致性和对事件图的关联。通过这个管道，我们收集了一个包含 300 个回合和平均 9K 个记号的非常长期对话的数据集。基于该数据集，我们提出了一个全面的评估基准来衡量模型中的长期记忆，在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明，LLM 在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文 LLM 或 RAG 等策略可以提供改进，但这些模型仍然远远落后于人类的性能。

Feb, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

InternLM2 技术报告

InternLM2 是一种开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和 30 个基准测试中优于之前的模型，并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程，使用了包括文本、代码和长文本数据在内的多种数据类型，并具备捕捉长期依赖、高效处理任务的能力。此外，通过释放不同训练阶段和模型大小的 InternLM2 模型，为社区提供了对模型演进的深入理解。

Mar, 2024

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023