记忆增强型大语言模型是计算通用的
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024
Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.
Oct, 2023
该研究提出了一种新的内存增强的查找字典的 Transformer 语言模型,并证明了它在长尾预测问题上的有效性,提高了自动语音识别解码效率,特别是对于长尾词的识别表现更佳。
Dec, 2022
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
通过引入关联记忆模块,在不需要重新训练的情况下,使得任何预训练(固定)基于注意力的大型语言模型能够处理任意长的输入序列,从而在长文本建模中实现了显著的困惑度降低。
Feb, 2024
本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型,在多个基准测试和任务中展示了近似 kNN 查找技术,着重测试了代码和数学等领域,并证明了随着储存器大小的增加,性能将稳步提高。
Mar, 2022
大型语言模型(LLMs)是巨大的人工神经网络,主要用于生成文本,但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性,并发现它与人类记忆的关键特征存在惊人的相似性,这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。
Nov, 2023
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023