QRMeM:通过问题和反思记忆机制突破长度限制
我们提出了 MemWalker,这是一种将长上下文处理成摘要节点树的方法,模型通过迭代提示的方式导航该树以寻找相关信息并一旦收集足够信息便回答问题,在长文本问答任务上,我们方法的性能优于使用长上下文窗口、重复和检索的基线方法。通过交互式阅读文本,MemWalker 还提升了解释能力,突出了推理步骤,并准确指出与查询相关的文本片段。
Oct, 2023
通过实验展示了 RecallM 架构对 AGI 系统提供的改进的时间理解能力,从而提出了一种面向 AGI 系统的可适应和可更新的长期记忆机制。
Jul, 2023
近年来,大型语言模型(LLMs)在大文本语料库的预训练过程中展示了令人印象深刻的知识编码能力。本研究通过构建一个新的基于系统评述的数据集,评估了六种 LLMs(如 GPT 和 Mixtral)在医学知识回忆方面的能力,并揭示了此任务的复杂性。
Jun, 2024
提出了一种新的 RET-LLM 框架,它为 LLMs 提供了一个通用的写 - 读内存单元,使它们能够从文本中提取、存储和检索知识,以便进行任务执行。通过 Davidsonian 语义理论,以三元组的形式提取和保存知识,在问答任务中展现出比基线方法更卓越的性能。此外,该框架在处理基于时间的问题回答任务时表现出了强大的性能,展示了它有效处理时态信息的能力。
May, 2023
我们介绍了 MemLLM,这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互,改善了 LLM 在使用存储的知识方面的能力,从而解决了上述挑战。我们的实验结果表明,MemLLM 提高了 LLM 的性能和可解释性,尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。
Apr, 2024
本文提出了一种以问答对为基础的编码 - 解码模型,通过该模型的预训练策略,能够在单跳及多跳问题上达到强大性能,并进一步提高了对模型的解释和控制能力,缩小了与段落检索系统之间的性能差距。
Apr, 2022
在人工智能领域,大型语言模型(LLM)代理通过自然语言提示来执行任务,消除了显式重新训练或精调的需要,尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而,将上下文学习应用于开放性挑战,例如诗歌创作,由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制,导致输出与预期结果经常不一致。为了解决这一差距,我们的研究引入了用于 LLM 多代理的记忆共享(MS)框架,该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应,将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例,而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明,MS 框架显著提高了代理在开放性问题上的性能。此外,我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理,并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。
Apr, 2024
通过动态上下文编辑的方式,我们引入了一种新的方法,将信息检索重新设想,使长文本上下文成为可塑的外部知识,并通过与最新的知识编辑技术相结合,与有关信息进行交互式收集和整合,从而使大型语言模型能够进行复杂的推理步骤,有效增强了推理能力。
Jun, 2024
本文提出了一个基于序列阅读的外部内存读取模型 Episodic Memory Reader, 并结合强化学习代理进行记忆筛选,用于在大规模数据流中进行问答。实验结果表明该模型在文本 QA 和视频 QA 任务中相较于传统记忆调度策略或独立序列学习的强化学习 baseline 有了更好的表现。
Mar, 2019
研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能,发现指导调优等因素能够提高召回和理解能力,并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果,为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。
Jun, 2024