- MammothModa: 多模大语言模型
我们介绍了 MammothModa,这是另一个多模态大型语言模型(MLLM),旨在从基本基线实现最先进的性能。我们关注了三个关键设计见解:(i)在保持复杂语言理解的同时融入视觉能力:除了视觉编码器外,我们还将视觉注意力专家纳入 LLM 以增 - UIO-LLMs:面向长上下文 LLMs 的无偏增量优化
通过使用 UIO-LLMs 方法,将大规模语言模型应用于长文本管理,成功处理了长上下文窗口的挑战,实现了扩展上下文窗口长度且保持推断成本线性增加的目标。
- 基于级联 KV 缓存的无需训练的滑动窗口上下文的指数扩展
在基于 transformer 的大型语言模型(LLMs)中,通过使用一个保存了初始 token 和固定大小的滑动窗口的键值(KV)缓存,以线性复杂度实现稳定的流式生成,并能够在总缓存大小不变的情况下存储更远过去的 token,取得了 5. - 通过分解位置向量探索大型语言模型的上下文窗口
通过分析位置向量对注意力的形成和影响,我们设计了两种无需训练的上下文窗口扩展方法,即位置向量替换和注意力窗口扩展。实验结果表明,我们的方法可以有效地扩展上下文窗口的长度。
- 聚类检索增强生成(CRAG)
提供外部知识给大规模语言模型是实际应用中的关键点之一,为了融入实时的内容、提供特定领域知识以及预防生成虚构内容。通过数据库向量检索增强生成(RAG)方法已经被广泛采用,然而在某些应用中,使用 RAG 方法可能不可行,因为所检索的上下文可能需 - XL$^2$Bench:极长上下文理解与长距离依赖的基准测试
我们介绍了一个长文本理解的基准测试 XL2Bench,其中包含三个场景:小说阅读、论文阅读和法律阅读,以及四个难度递增的任务:记忆检索、细节理解、整体理解和开放式生成,涵盖了 27 个子任务,用英文和中文表示,平均长度为 100K + 词( - 并行上下文编码的长文本语言建模
通过引入上下文扩展并行编码(CEPE)框架,可以将现有的仅解码的大型语言模型(LLMs)的上下文窗口扩展,使其能够更有效地处理长输入并且在检索增强应用中表现优异。
- 通过可扩展的分词技术灵活扩展大型语言模型的上下文
本文介绍了可拓展分词作为一种可选方法,可实现大语言模型(LLMs)上下文的灵活扩展,以提供更多信息。经过综合实验证明,可拓展分词是一种有效、高效、灵活和兼容的方法,可扩展 LLMs 的上下文。
- 扩展 LLMs 上下文窗口至 100 个样本
本研究介绍了一种新颖的 RoPE 扩展方法,通过调整 RoPE 的基础频率和缩放注意力 logits,帮助 LLMs 高效适应更大的上下文窗口,并验证了这种方法在微调性能和稳健性方面的优越性。
- 从 4K 到 400K:用激活信标扩展 LLM 的上下文
利用 Activation Beacon 插件来压缩语言模型的原始激活,从而使其在有限上下文窗口的情况下能感知更长的上下文,提高 LLM 的长文本处理能力。
- LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口
通过自扩展方法,利用现有的大型语言模型的内在能力来处理长文本,并延伸其上下文窗口,以有效应对长输入序列。
- 复述原文” 提高了长篇背景问答的准确性
通过有效的训练数据,本研究提出了使用 “原始文本改写” 任务的低成本有效方法,将现有模型的上下文窗口扩展到 32k,从而在多文档问答中实现了极高的准确性,并超越了所有同等规模的现有开源模型。
- RRescue: 提升对上下文的推理能力的 LLM 响应排序
通过使用排名度量标准优化 LLMs,本研究提出了一种增强 LLMs 情境理解的新方法 RRescue,该方法通过对一系列具有情境依据的候选回复进行排序,以部分排序的方式来教授 LLMs。
- CLEX: 大型语言模型的连续长度外推
建议一种基于连续长度外推(CLEX)的 Transformer-based Large Language Models (LLMs),可将 context window 扩展到训练序列长度的 4 倍或 8 倍,并在实际任务中表现出竞争性性能 - 走入记忆迷宫:通过互动阅读突破环境限制
我们提出了 MemWalker,这是一种将长上下文处理成摘要节点树的方法,模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题,在长文本问答任务上,我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读 - 检索与长上下文大语言模型的融合
通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案,我们发现使用简单的检索增强在生成时可以实现与微调后的具有 16K 上下文窗口通过位置插值在长上下文任务上具有可比性能的 4K 上下文窗口的大型语言模型,而计算量 - 利用重要性假设的持久性进行测试时 LLM KV 缓存压缩的剪刀手技术
Scissorhands 是一种用于大型语言模型的系统,通过存储关键的 token 来管理生成过程中的内存使用,从而实现将 KV Cache 内存使用量控制在固定的预算内,最高可以将其降低 5 倍。
- ACL重温上下文窗口:用于跨语言词嵌入的方法
本研究系统评估了使用不同上下文窗口大小训练的跨语言词嵌入在多种语言、领域和任务中的性能,并发现增加源和目标词窗口大小可以提高双语词汇归纳的性能,尤其是对于频繁的名词。