深思熟虑:带有内部工作记忆的决策 Transformer
本文通过应用认知心理学的工作记忆框架来增强大型语言模型(LLMs)的架构,以解决其在人类记忆能力方面的限制,并提出了一种创新模型,包括集中的工作记忆中心和情景缓冲区,以提供更高的连续性,以实现复杂任务和合作场景中的细致语境推理。然而,对于情景记忆的优化编码、存储、优先级、检索和安全性仍需进一步研究,以促进发展具有更复杂、类似人类记忆能力的 LLM 代理。这表明记忆机制是人工通用智能领域的重要前沿。
Dec, 2023
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
提出了一种称为 TiM(Think-in-Memory)的新型记忆机制,通过保存后思考的思想作为历史记录,使得 LLMs 能够维护进化的记忆以存储历史思想,并且通过引入局部敏感哈希实现了对长期对话的高效检索,从而显著提升了现有 LLMs 在生成长期互动响应方面的性能。
Nov, 2023
该论文主要探讨利用人类记忆系统中的交叉连接假设来增强记忆增强型 Transformers 模型,并以惊奇度作为交叉连接假设模型进行实证研究,并识别该方法的局限性以指导未来的研究。
Oct, 2022
在人工智能领域,大型语言模型(LLM)代理通过自然语言提示来执行任务,消除了显式重新训练或精调的需要,尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而,将上下文学习应用于开放性挑战,例如诗歌创作,由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制,导致输出与预期结果经常不一致。为了解决这一差距,我们的研究引入了用于 LLM 多代理的记忆共享(MS)框架,该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应,将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例,而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明,MS 框架显著提高了代理在开放性问题上的性能。此外,我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理,并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。
Apr, 2024
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023
研究表明 LLMs(大型语言模型)可以在 Towers of Hanoi 相关任务中生成近乎最优解,体现出计划能力和高效工作记忆利用率,这暗示了一种潜在的执行功能发展,但这些能力相对有限,而非经过充分训练的人类表现更好
May, 2023
通过对 LLMs 的选择性整合外部知识,介绍了一种基于多个 LLM 之间交互协助的外部推理新方法 (ChatPDF),在人类反馈的响应下,根据查询的复杂性调整支持水平,经过全面评估后取得了最先进的性能,并且相比 LLMs 直接处理全文,这种方法更加高效。
Jul, 2023
大型语言模型(LLM)基于代理近年来引起了研究和行业界的广泛关注。本文提出了对 LLM 基于代理的记忆机制进行全面调查,包括记忆的定义、需要、设计、评估以及在代理应用中的重要作用,并分析了现有工作的局限性和未来方向。
Apr, 2024