LLM 的潜在概念关联和转换器中的联想记忆

Jun, 2024

LLM 的潜在概念关联和转换器中的联想记忆

Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers

Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam

TL;DR大型语言模型具有存储和提取事实的能力，并且可以通过改变上下文来操纵提取事实的能力，揭示出它们可能像联想记忆模型一样行为，其中上下文中的某些令牌作为提取事实的线索。我们通过研究 transformer 如何完成此类记忆任务，对这一属性进行了数学探索，使用一个简单的单层 transformer 研究了简单的潜在概念关联问题，理论和经验都表明 transformer 使用自注意力来收集信息并使用值矩阵进行联想记忆。

Abstract

large language models (LLMs) have the capacity to store and recall facts. Through experimentation with open-source models, we observe that this ability to retrieve facts can be easily manipulated by changing cont

large language models retrieve facts associative memory model transformers self-attention

发现论文，激发创造

LLM 们幻想本体工具吗？

大型语言模型能够部分地记忆本体论概念，并且记忆程度与概念在网络上的普及程度成正比。本研究还提出了新的度量方法，通过测量在不同提示重复、查询语言和确定性程度下产生的输出的一致性来估计语言模型中本体论信息的记忆程度。

Jan, 2024

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Feb, 2024

自回归语言模型中事实关联的回忆解剖

本文通过信息流的视角研究了基于 Transformer 的语言模型如何在推理过程中检索参数中的实际知识，并通过对模型中注意力机制的介入实现了对预测中信息流的详细分析和理解。通过此研究，我们阐述了在语言模型中实现知识局部化和编辑的方法。

Apr, 2023

总结事实：LLMs 中事实回忆的叠加机制

基于 Transformer 的大型语言模型（LLMs）如何存储和检索知识？我们关注了这个任务的最基本形式 —— 事实召回，其中模型被要求在形如 “事实：斗兽场位于国家” 的提示中明确地呈现存储的事实。我们发现，基于事实召回的机制比之前认为的更为复杂。它包括几个不同、独立且具有不同质量的机制，这些机制通过加法组合，在正确的属性上进行构造性干扰。我们将这种通用现象称为加性模式：模型通过对多个独立的贡献求和来计算。每个机制的贡献本身可能不足够，但求和的结果在正确答案上产生了构造性干扰。此外，我们扩展了直接逻辑回归归因法的方法，将注意力头的输出归因给单个源标记。我们使用这种技术来解包我们所称的 ' 混合头部 '—— 它们本身是来自不同源标记的两个独立的加性更新的一对。

Feb, 2024

人类记忆和大型语言模型的方面

大型语言模型（LLMs）是巨大的人工神经网络，主要用于生成文本，但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性，并发现它与人类记忆的关键特征存在惊人的相似性，这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。

Nov, 2023

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

深思熟虑：带有内部工作记忆的决策 Transformer

本文提出了一种基于内部工作记忆模块的决策制定代理，可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力，并进一步证明记忆微调可以增强所提出架构的适应性。

May, 2023