扩展语言模型的记忆 | BriefGPT - AI 论文速递

May, 2023

扩展语言模型的记忆

Extending Memory for Language Modelling

Anupiya Nugaliyadde

TL;DR本文介绍了长期记忆网络 (LTM) 以解决自然语言理解模型在处理长的序列文本时出现的问题。通过在语言建模任务上进行测试，我们发现 LTM 能够学习到无限长的序列信息，并与其他需要长时间记忆的语言模型进行比较。

Abstract

Breakthroughs in deep learning and memory networks have made major advances in natural language understanding. Language is sequential and

deep learning memory networks natural language understanding long-term memory network language modeling

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

MemoryBank：用长期内存增强大语言模型

提出了 MemoryBank，这是一种采用 Ebbinghaus 遗忘曲线中的记忆更新机制的新型记忆机制，旨在解决长期交互中 LLM 的记忆缺陷问题，并通过与心理对话调整提高其同理心。通过实验研究，证明了 MemoryBank 能够成功提高聊天机器人在长期 AI Companion 中的表现能力。

May, 2023

人类记忆和大型语言模型的方面

大型语言模型（LLMs）是巨大的人工神经网络，主要用于生成文本，但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性，并发现它与人类记忆的关键特征存在惊人的相似性，这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。

Nov, 2023

InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

通过引入一种无需训练的基于内存的方法 InfLLM，使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。

Feb, 2024

树状长短期记忆网络改进语义表征

介绍了 Tree-LSTM，一种适用于树状网络的 LSTM 结构，该系统表现优秀，可以应用于两个任务：预测两个句子的语义相关性和情感分类。

Feb, 2015

可视化和理解循环网络

使用字符级语言模型作为可解释的测试平台，本研究分析了 LSTM 的表示、预测和错误类型，并揭示了其提高性能的长程结构依赖性的来源。

Jun, 2015

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。

Dec, 2014

主动式长期记忆网络

介绍了 Active Long Term Memory Networks (A-LTM) 模型，该模型能够在序贯多任务深度学习过程中保留以前学习的知识，同时获得新的知识，利用 distillation loss 来主动维护以前学习的信息，并赋予隐藏层向新的多任务目标优化的自由，结果表明 A-LTM 策略可以维持高精度的视角识别，适应复杂的知识领域。

Jun, 2016

树状记忆网络用于建模长期时间依赖关系

提出了一种基于树形记忆网络的序列映射模型，用于捕获长期和短期依赖关系，并在飞行轨迹建模和行人轨迹建模等实际问题中实现了较好的性能。

Mar, 2017

自顶向下的树形长短期记忆网络

本文提出了一种名为 Tree Long Short-Term Memory (TreeLSTM) 的神经网络模型，它基于 LSTM 并专门用于预测树结构，同时通过明确表示左右句法相关性，提高了建模能力。在 MSR 句子完成挑战和依存分析重排序方面的应用，都达到了当前最先进技术水平的效果。

Oct, 2015