增强时间变换循环神经网络的多个时间观点

ICMLFeb, 2024

增强时间变换循环神经网络的多个时间观点

Enhancing Transformer RNNs with Multiple Temporal Perspectives

Razvan-Gabriel Dumitru, Darius Peteleaza, Mihai Surdeanu

TL;DR我们引入了多个时间视角的概念，一种适用于循环神经网络（RNN）架构，以增强其对顺序数据的理解的新方法。我们将此方法应用于 Receptance Weighted Key Value（RWKV）架构，并取得了显著的改进效果，解决了在单个隐藏状态中保留所有历史信息的固有挑战。我们的方法通过最少的参数增加（甚至仅为原始参数数量的 0.04％），实现了这种改进。此外，多个时间视角所需的额外参数可以在最小的计算开销下进行微调，避免了完全的预训练需求。研究中包括的实证结果和剃除研究验证了我们方法的有效性，并展示了在多个基准测试中改进的性能。

Abstract

We introduce the concept of multiple temporal perspectives, a novel approach applicable to recurrent neural network (RNN) architectures for enhancing their understanding of →

multiple temporal perspectives recurrent neural network language models receptance weighted key value sequential data

发现论文，激发创造

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

RWKV-TS：超越传统循环神经网络的时间序列任务

传统的循环神经网络在时间序列任务中曾占据主导地位，但最近在各个时间序列任务中逐渐衰退，因此我们设计了一种高效的基于循环神经网络的时间序列任务模型 RWKV-TS，该模型具有三个独特特点：（一）$O (L)$ 时间复杂度和内存使用的新型循环神经网络架构；（二）相较于传统循环神经网络更好地捕捉长期序列信息的能力；（三）具有高计算效率和有效规模扩展性的特点。通过大量实验，我们的 RWKV-TS 模型与最先进的基于 Transformer 或卷积神经网络模型相比具备竞争力的性能表现，特别值得注意的是 RWKV-TS 不仅性能可比，而且具有较低的延迟和内存使用。RWKV-TS 的成功鼓励了在时间序列领域中进一步探索和创新，其具备竞争性能、低延迟和高效内存使用的特点使其成为未来时间序列任务研究的有希望方向。

Jan, 2024

RRWKV: 捕捉 RWKV 中的长程依赖

本文提出了回顾性接收加权键值（RRWKV）架构，通过将回顾能力融入到 RWKV 中，有效地吸收信息，同时保持存储和计算效率，从而解决了 RWKV 架构的局限性，能够更好地捕捉长程依赖。

Jun, 2023

Transformer 可解释性转移到 RNN 中吗？

最近在递归神经网络（RNN）架构方面取得的进展，例如 Mamba 和 RWKV，使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过，这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说，我们专注于通过对比激活添加来控制模型输出，使用调整后的镜头引发潜在预测，并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明，当应用于 RNN 时，这些技术大多是有效的，并且我们还展示了通过利用 RNN 的压缩状态，可以改善其中一些技术。

Apr, 2024

多角度 LSTM 联合视觉表示学习

我们提出了一种新颖的 LSTM 单元结构，能够学习从多个角度捕获的视觉序列中存在的内部和跨视角关系。我们证明，使用所提出的单元来创建神经网络，可以学习有效和更丰富的视觉表示，适用于口型识别和人脸识别等多角度视觉识别任务。我们在三个相关数据集上验证了我们提出的架构的性能，并将结果与融合策略，其他现有的多输入 LSTM 架构和替代识别方案进行了比较。实验表明，我们的解决方案在识别准确性和复杂性方面优于其他方案。

May, 2021

从时间数据中进行深度多模态表征学习

本文介绍了一种名为 Correlational Recurrent Neural Network（CorrRNN）的神经网络模型，该模型将多种时间序列数据进行合并，通过同时学习联合表示和模态之间的时间依赖关系来优化预测性能，并使用多个损失项和注意力模型来调整模态之间的贡献。实验证明了该模型在各种数据集上表现优越。

Apr, 2017

语言模型的时间注意力

该研究提出了一种时间感知的自注意力机制 —— 时间注意力，用于任何基于变形器模型的预训练语言模型中，以捕捉上下文中的时间信息，并应用于语义变化检测任务，在三个不同语言的数据集上取得最先进的结果。

Feb, 2022

深度时间循环复制 Softmax 在时序话题趋势中的应用

本文提出了一种新的无监督神经动态主题模型 ——RNNRSM，该模型有利于在时间序列文档集合中识别主题趋势，并引入了一个用于量化模型捕捉单词演变的指标 SPAN。通过对 19 年 NLP 研究文章的应用，与现有主题模型相比，RNNRSM 表现出更好的泛化性、主题解释性、演化和趋势性。

Nov, 2017

GeThR-Net: 通用时间混合循环神经网络用于多模态信息融合

提出了一种新颖的深度神经网络架构，该架构能够智能地组合来自多种模态的时间流数据且表现优于目前最佳的多模态网络算法。

Sep, 2016

基于文本到文本多视角学习的段落重新排序

本论文提出了一种基于文本生成视角的文本 - 文本多视角学习框架，相比单视角计算，该方案提高了排名表现；同时，文章还进行了相关消融实验。

Apr, 2021