记忆间隙:LLM 是否能通过图尔文测试?
认知科学和大型语言模型(LLMs)的发展使得这两个领域之间的联系被揭示出来。建立在这些联系之上,我们提出了一种假设,认为 LLMs 与图尔文的记忆理论之间存在一种二元性。我们确定了图尔文的协同映射培养模型(SEM)的检索与 LLMs 中观察到的新能力之间的潜在对应关系,为我们的假设提供了支持证据。此外,我们推测意识可能被视为这种二元性的一种新能力形式。我们还讨论了其他意识理论如何与我们的研究相交叉。
Jan, 2024
本文通过应用认知心理学的工作记忆框架来增强大型语言模型(LLMs)的架构,以解决其在人类记忆能力方面的限制,并提出了一种创新模型,包括集中的工作记忆中心和情景缓冲区,以提供更高的连续性,以实现复杂任务和合作场景中的细致语境推理。然而,对于情景记忆的优化编码、存储、优先级、检索和安全性仍需进一步研究,以促进发展具有更复杂、类似人类记忆能力的 LLM 代理。这表明记忆机制是人工通用智能领域的重要前沿。
Dec, 2023
我们介绍了 MemLLM,这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互,改善了 LLM 在使用存储的知识方面的能力,从而解决了上述挑战。我们的实验结果表明,MemLLM 提高了 LLM 的性能和可解释性,尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。
Apr, 2024
通过合成任务,我们研究了生成式语言模型(例如 GPT-2)能否按顺序或随机访问其记忆,并发现记忆重述和置换等技术提高了随机访问能力,进而在问答任务中取得了显着的改进。
Mar, 2024
通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能,我们的研究表明模型的成功检索能力不仅取决于提示内容,而且还可能受到训练数据中的偏见的影响。相反,通过对模型架构、训练策略或微调进行调整可以提高性能,我们的分析揭示了关于大型语言模型行为的见解,为开发更有效的应用提供了指导。
Apr, 2024
提出了一种称为 TiM(Think-in-Memory)的新型记忆机制,通过保存后思考的思想作为历史记录,使得 LLMs 能够维护进化的记忆以存储历史思想,并且通过引入局部敏感哈希实现了对长期对话的高效检索,从而显著提升了现有 LLMs 在生成长期互动响应方面的性能。
Nov, 2023
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023
本文展示了使用增强记忆的大型语言模型(LLM)架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以 LARIMAR 为案例研究,它是最近提出的一种 LLM 架构,通过在 LLM 解码器上增加外部关联内存来增强性能,并在几个长上下文召回任务中进行测试,包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文,同时保持经过训练的解码器可以识别的内存读出结果,而不增加 GPU 内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比,LARIMAR 可以在没有任何特定任务训练的情况下保持强大的性能。
Jul, 2024