记忆之外:语言模型中随机内存访问的挑战
通过使用参数高效的微调模式和计算仿生记忆机制,我们提出了一种新颖的个人化大语言模型方法,该方法在用户导向的生成任务中展示了卓越的效果和优越性能。
Sep, 2023
大语言模型(LLMs)在各个领域展示了前所未有的性能,但其特殊行为之一 —— 记忆化 —— 仍缺乏解释,本研究通过多个角度全面探讨记忆化现象及其动态,并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系,以及不同记忆化得分下句子的嵌入分布和解码动态,揭示了当模型开始生成记忆化或非记忆化句子时的边界效应,最后通过训练 Transformer 模型预测不同模型的记忆化,证明了通过上下文预测记忆化的可行性。
May, 2024
我们介绍了 MemLLM,这是一种通过整合结构化且显式的读写内存模块来增强 LLMs 的新方法。 MemLLM 通过使内存与 LLM 的动态交互,改善了 LLM 在使用存储的知识方面的能力,从而解决了上述挑战。我们的实验结果表明,MemLLM 提高了 LLM 的性能和可解释性,尤其是在语言建模和知识密集型任务中。我们认为 MemLLM 是使 LLMs 通过内存增强更加扎实和事实准确的重要一步。
Apr, 2024
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
此论文通过在新的问题 / 答案(QA)数据集 PopQA 上对 10 个模型和 4 种增强方法进行大规模的知识探测实验,旨在了解大型语言模型 (LMs) 在记忆事实知识方面的优劣,发现 LMs 在纽约市场上的市场地位相对较低,而检索增强的 LMs 在不需要检索的情况下可以显著地改善性能,并降低推理成本。
Dec, 2022
这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
构建在生成式语言模型基础上的多模态大型语言模型(MLLMs)拥有记忆和重新召回图像能力,介绍了一种基于生成式跨模态检索框架的方法,通过将图像存储在 MLLMs 中以实现记忆功能,并有效地进行跨模态检索。
Feb, 2024
本文研究了利用大型语言模型(LLMs)预训练阶段存储的参数化知识,独立地从任意起始位置检索参考段落的方法,并提出了一个模拟人类检索易被遗忘参考的两阶段框架。实验证明,LLMs 能够独立检索各种任务形式中的参考段落位置,并且获取的参考对下游任务产生了显著帮助。
Feb, 2024