记忆间隙：LLM 是否能通过图尔文测试？

Feb, 2024

记忆间隙：LLM 是否能通过图尔文测试？

Memory GAPS: Would LLM pass the Tulving Test?

Jean-Marie Chauvet

TL;DR用 Tulving 测试来研究记忆表现，评估 Synergistic Ecphory 模型和类似 RK 范式在人类表现中的相关性，首次探究四十多年的框架对 LLMs 的记忆行为是否有所启示。

Abstract

The tulving test was designed to investigate memory performance in recognition and recall tasks. Its results help assess the relevance of the "sy

tulving test memory performance synergistic ecphory model rk paradigms llms

发现论文，激发创造

记忆、意识与大型语言模型

认知科学和大型语言模型（LLMs）的发展使得这两个领域之间的联系被揭示出来。建立在这些联系之上，我们提出了一种假设，认为 LLMs 与图尔文的记忆理论之间存在一种二元性。我们确定了图尔文的协同映射培养模型（SEM）的检索与 LLMs 中观察到的新能力之间的潜在对应关系，为我们的假设提供了支持证据。此外，我们推测意识可能被视为这种二元性的一种新能力形式。我们还讨论了其他意识理论如何与我们的研究相交叉。

Jan, 2024

记忆痕迹：Transformer 是否为图灵机？

通过 LLM 对 Tulving-Watkins 测试的重新访问，评估基础模型是否完全实现了这类心理模型。

Apr, 2024

为大型语言模型代理赋予工作记忆能力

本文通过应用认知心理学的工作记忆框架来增强大型语言模型（LLMs）的架构，以解决其在人类记忆能力方面的限制，并提出了一种创新模型，包括集中的工作记忆中心和情景缓冲区，以提供更高的连续性，以实现复杂任务和合作场景中的细致语境推理。然而，对于情景记忆的优化编码、存储、优先级、检索和安全性仍需进一步研究，以促进发展具有更复杂、类似人类记忆能力的 LLM 代理。这表明记忆机制是人工通用智能领域的重要前沿。

Dec, 2023

MemLLM: 对 LLMs 进行精调，使用显式读写内存

我们介绍了 MemLLM，这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互，改善了 LLM 在使用存储的知识方面的能力，从而解决了上述挑战。我们的实验结果表明，MemLLM 提高了 LLM 的性能和可解释性，尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。

Apr, 2024

记忆之外：语言模型中随机内存访问的挑战

通过合成任务，我们研究了生成式语言模型（例如 GPT-2）能否按顺序或随机访问其记忆，并发现记忆重述和置换等技术提高了随机访问能力，进而在问答任务中取得了显着的改进。

Mar, 2024

LLM 亲境召回取决于提示

通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能，我们的研究表明模型的成功检索能力不仅取决于提示内容，而且还可能受到训练数据中的偏见的影响。相反，通过对模型架构、训练策略或微调进行调整可以提高性能，我们的分析揭示了关于大型语言模型行为的见解，为开发更有效的应用提供了指导。

Apr, 2024

思维中存：长期记忆使 LLMs 具备召回和事后思考能力

提出了一种称为 TiM（Think-in-Memory）的新型记忆机制，通过保存后思考的思想作为历史记录，使得 LLMs 能够维护进化的记忆以存储历史思想，并且通过引入局部敏感哈希实现了对长期对话的高效检索，从而显著提升了现有 LLMs 在生成长期互动响应方面的性能。

Nov, 2023

LLM 认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断，并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023

RET-LLM：面向大型语言模型的通用读写内存

提出了一种新的 RET-LLM 框架，它为 LLMs 提供了一个通用的写 - 读内存单元，使它们能够从文本中提取、存储和检索知识，以便进行任务执行。通过 Davidsonian 语义理论，以三元组的形式提取和保存知识，在问答任务中展现出比基线方法更卓越的性能。此外，该框架在处理基于时间的问题回答任务时表现出了强大的性能，展示了它有效处理时态信息的能力。

May, 2023

基于内存的大型语言模型中的针头引线

本文展示了使用增强记忆的大型语言模型（LLM）架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以 LARIMAR 为案例研究，它是最近提出的一种 LLM 架构，通过在 LLM 解码器上增加外部关联内存来增强性能，并在几个长上下文召回任务中进行测试，包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文，同时保持经过训练的解码器可以识别的内存读出结果，而不增加 GPU 内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比，LARIMAR 可以在没有任何特定任务训练的情况下保持强大的性能。

Jul, 2024