本文提出一种扩展神经网络语言模型以适应最近历史的方法,将过去的隐藏活性作为记忆保存,并通过与当前隐藏激活的点积来访问它们,此机制非常高效,能够扩展至非常大的存储空间。同时,作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系,并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。
Dec, 2016
提出了一种扩展连续缓存模型的方法,通过使用大规模的非参数内存组件,存储过去观察到的所有隐藏激活,并利用近似最近邻搜索和量化算法,高效地存储和搜索数百万的表示,显著提高了预训练语言模型在新分布上的困惑度,并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。
Nov, 2017
KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术,通过缓存预先计算的 KV 状态,将热门 LLMs 的吞吐量提高 40%,同时保持准确性。
Apr, 2024
通过对大型语言模型的键 - 值缓存进行压缩,以降低内存占用,并提高高吞吐量和优化压缩比率。
May, 2024
本文介绍了一种优化大语言模型中键值缓存的方法,通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%,而不会引起性能明显下降。
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准 Transformer 高 26 倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的 Transformer 节省内存技术正交,因此可以轻松将它们与我们的模型集成,进一步提高推理效率。
通过将外部语料库的相关文档与大型语言模型(LLM)集成,检索增强语言建模(RALM)是一种已被证明的方法,可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack,一种模块化的 RALM,通过在上下文末尾附加检索到的文档来提高 RALM 的推理效率,同时在特定的微调后保持良好的性能,而不会严重破坏 LLM 的知识完整性。
本文研究了如何利用一种轻量级的缓存神经网络来存储最近的隐藏层表示作为翻译历史,基于从记忆中检索出的翻译历史更新生成单词的概率分布,从而使得神经机器翻译模型具有动态适应能力,并且在计算成本方面影响极小。
提出了一种名为 LongMem 的框架,该框架通过引入长期记忆机制,使得语言模型能够利用历史上下文信息,从而使得模型在文本生成等任务中取得了优异效果。
Jun, 2023
CacheGen 通过将上下文的键值(KV)特征压缩成更紧凑的比特流表示形式,从而减少获取和处理上下文的延迟,并降低带宽使用量。在测试中,相对于处理长上下文的最近方法,CacheGen 在保持类似的大型语言模型任务性能的同时,减少了带宽使用量 3.7-4.3 倍,减少了获取和处理上下文的总延迟 2.7-3 倍。
Oct, 2023