提出了一种名为 LongMem 的框架,该框架通过引入长期记忆机制,使得语言模型能够利用历史上下文信息,从而使得模型在文本生成等任务中取得了优异效果。
Jun, 2023
提出了 MemoryBank,这是一种采用 Ebbinghaus 遗忘曲线中的记忆更新机制的新型记忆机制,旨在解决长期交互中 LLM 的记忆缺陷问题,并通过与心理对话调整提高其同理心。通过实验研究,证明了 MemoryBank 能够成功提高聊天机器人在长期 AI Companion 中的表现能力。
May, 2023
大型语言模型(LLMs)是巨大的人工神经网络,主要用于生成文本,但同时也提供了一个非常复杂的语言使用概率模型。我们调查了 LLMs 的记忆特性,并发现它与人类记忆的关键特征存在惊人的相似性,这一结果强烈暗示了人类记忆的生物特征对我们构建文本叙述的方式产生了影响。
Nov, 2023
通过引入一种无需训练的基于内存的方法 InfLLM,使得大型语言模型 (LLM) 能够高效处理长序列并捕获远距离依赖关系。
Feb, 2024
介绍了 Tree-LSTM,一种适用于树状网络的 LSTM 结构,该系统表现优秀,可以应用于两个任务:预测两个句子的语义相关性和情感分类。
Feb, 2015
使用字符级语言模型作为可解释的测试平台,本研究分析了 LSTM 的表示、预测和错误类型,并揭示了其提高性能的长程结构依赖性的来源。
Jun, 2015
本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络,并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。
Dec, 2014
介绍了 Active Long Term Memory Networks (A-LTM) 模型,该模型能够在序贯多任务深度学习过程中保留以前学习的知识,同时获得新的知识,利用 distillation loss 来主动维护以前学习的信息,并赋予隐藏层向新的多任务目标优化的自由,结果表明 A-LTM 策略可以维持高精度的视角识别,适应复杂的知识领域。
Jun, 2016
提出了一种基于树形记忆网络的序列映射模型,用于捕获长期和短期依赖关系,并在飞行轨迹建模和行人轨迹建模等实际问题中实现了较好的性能。
Mar, 2017
本文提出了一种名为 Tree Long Short-Term Memory (TreeLSTM) 的神经网络模型,它基于 LSTM 并专门用于预测树结构,同时通过明确表示左右句法相关性,提高了建模能力。在 MSR 句子完成挑战和依存分析重排序方面的应用,都达到了当前最先进技术水平的效果。
Oct, 2015