long-term dependencies | BriefGPT

关键词long-term dependencies

搜索结果 - 61

STMGF：一种有效的时空多粒度交通预测框架
介绍了一种新颖的框架，即空间 - 时间多粒度框架 (STMGF)，用于提高对交通网络中长距离和长期信息的捕捉，该框架通过以分层交互方式收集信息，利用交通序列中的固有周期性与最近交通数据进行匹配以改善预测结果，并在两个真实数据集上的实验表明
PDF3 months ago
掌握记忆任务的世界模型
通过在模型基础强化学习代理的世界模型中集成一种新的状态空间模型，在解决涉及行动和结果之间存在较大时间间隔或需要回忆遥远观察来指导当前行动的任务方面提出了一种名为 R2I 的新方法，该集成旨在提高长期记忆和长期视野信用分配，系统演示了 R2I
PDF4 months ago
RAVEN：以高效的三层平面网络重新思考对抗性视频生成
我们提出了一种新颖的无条件视频生成模型，旨在解决长期的空间和时间依赖关系。通过使用混合的显式隐式三平面表示法和单一潜变量模型整个视频序列，我们的方法捕捉这些依赖关系。通过从主要潜变量推导出的中间三平面表示，合成单个视频帧。这种新颖策略通过
PDF6 months ago
连续时间动态图的多角度反馈 - 注意力耦合模型
这篇论文介绍了多视角反馈 - 注意力耦合（MPFA）模型，它能有效地学习观察到的过程的交织动态，通过结合演化视角和原始视角的信息，以及利用时间自注意机制和反馈注意力模块来捕捉流动图上的长期依赖关系。实验证明了我们提出的模型的有效性和竞争力。
PDF7 months ago
Dozerformer: 序列自适应稀疏 Transformer 用于多变量时间序列预测
基于 Dozer Attention 机制的 Dozerformer 框架在多元时间序列（MTS）预测任务中取得了出色的性能，该机制通过解决注意力机制中的两个关键限制，即二次时间复杂度和基于整个历史序列生成未来值的问题，来捕捉 MTS 数据
PDF7 months ago
层次门控循环神经网络用于序列建模
提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型，其中遗忘门受可学习值下界限制，使得上层能够建模长期依赖，而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验，证明了该模型的高效性和有效性
PDF8 months ago
基于 Transformer 的强化学习的分子全新设计
我们介绍了一种用于分子全新设计的 Transformer 基准生成模型的微调方法，利用 Transformer 相比循环神经网络 (RNNs) 的优越序列学习能力，我们的模型可以有效地生成具有期望属性的分子结构。与传统的基于 RNN 的模型
PDF9 months ago
ICLRMemoria: 人类类似序列处理的 Hebbian 记忆架构
通过引入奇异值理论 (memory theory) 以增强神经网络的长期相关性，Memoria 在处理长文本和记忆力相关任务上显著优于传统的 Transformer 模型。
PDF9 months ago
易用注意力：Transformer 模型的简易自注意机制
提出一种名为 easy attention 的新型注意机制，用于改进用于预测混沌系统时间动态的 Transformer 神经网络，通过自注意力机制直接将注意力得分作为可学习参数，具有更强的鲁棒性和较低的复杂性，适用于重建和预测混沌系统的时间
PDF10 months ago
分层频时间转换的自动钢琴转录
提出了一种名为 hFT-Transformer 的自动音乐转录方法，该方法利用了两种级别的分层频率 - 时间 Transformer 结构，能够捕捉音频中的长期依赖关系，并在评估中表现出最先进的性能。
PDFa year ago
Transformers 在强化学习任务中的优势：将记忆与信用分配解耦
通过对记忆长度和信用分配长度的定义，并设计简单可配置的任务来衡量这些不同的量，我们的实证结果揭示了 Transformers 可以增强 RL 算法的记忆能力，可以扩展到需要记住 1500 个步骤之前观察的任务，但 Transformers
PDFa year ago
AAAI使用 CNN 和 Transformer 进行金融时间序列预测
本文提出了通过使用卷积神经网络和 Transformers 来捕捉时间序列中的短期和长期依赖，并用于预测股票价格变化，与传统的统计和深度学习方法相比，实验结果表明该方法取得了成功。
PDFa year ago
动态全局滤波器双流时间延迟神经网络在说话人验证中的应用
本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型，可在语音辨识方面取得显著的效果，同时减少了参数和复杂性。
PDFa year ago
ICLR反对称 DGN：用于深度图网络的稳定架构
本文介绍了一种通过分析常微分方程而提出的抗对称深度图网络（A-DGNs）框架，该框架设计稳定而不耗散，能够有效地保存节点之间的长距离信息，并且不会发生梯度消失或爆炸的现象。该方法在多个图像基准测试中均获得了改进的性能，即使使用大量的层数也能
PDF2 years ago
解释我的惊讶：通过预测不确定结果学习高效的长期记忆
本文提出了一种新的训练方法 MemUP，可以在不需要同时反向传播整个序列梯度的情况下学习长期依赖关系，用于训练 LSTM 网络表现表现良好，并需要存储更少的中间数据。
PDF2 years ago
循环记忆变压器
本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT)，通过通过加入特殊的记忆 tokens 实现，该模型能够存储和处理局部和全局信息，传递长序列片段之间的信息，具有学习长期依赖性和内存处理方面的潜力.
PDF2 years ago
医学图像分割的全卷积 Transformer
提出了一种基于全卷积 transformer 的医疗图像分割模型，该模型可处理各种数据模态，能够有效地提取输入图像的语义依存关系并捕获其分层全局属性，并在多个数据集上表现优异，相对于同类模型具有参数少的特点。
PDF2 years ago
ACLLaMemo: 带向前存储的语言建模
本文介绍了一种名为 LaMemo 的模型，它通过增量地注意右侧的标记，并与旧的内存状态插值，以维护历史上的长期信息，它将双向注意力和段重复与附加计算开销相结合，只与内存长度成线性比例关系。实验表明 LaMemo 在广泛使用的语言建模基准测试
PDF2 years ago
MuLD: 多任务长文档基准
MuLD 是一个以文档长度为 10,000 个标记的新型长文档基准，旨在测试自然语言处理任务在长文档上的性能和解决方法。研究结果表明，使用增加上下文长度的 Transformer 模型能更好地解决该基准中的任务，这为进一步研究提供了启示。
PDF2 years ago
FlexConv：可微卷积，连续改变核大小
该论文提出了一种名为 FlexConv 的新型卷积操作，可以在学习可学习核大小的高带宽卷积核时以固定的参数成本来建模长期依赖性，提高分类准确性。
PDF3 years ago