RNNs 并非变形金刚（尚未如此）：上下文检索的关键瓶颈

Feb, 2024

RNNs 并非变形金刚（尚未如此）：上下文检索的关键瓶颈

RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval

Kaiyue Wen, Xingyu Dang, Kaifeng Lyu

TL;DR本研究探讨了递归神经网络（RNNs）和变压器（Transformers）在解决算法问题时的表示能力差距，发现通过 Chain-of-Thought 提示，RNNs 能够提高性能，但无法与 Transformers 靠近，而 RNNs 通过增强上下文检索能力的技术，如 RAG 和添加单个 Transformer 层，可以解决所有多项式时间可解问题，从而消除与 Transformers 之间的表示差距。

Abstract

This paper investigates the gap in representation powers of Recurrent Neural Networks (RNNs) and transformers in the context of solving algorithmic problems. We focus on understanding whether RNNs, known for their memory efficiency in handling long sequences, can match the performance

recurrent neural networks transformers chain-of-thought prompting in-context retrieval capability polynomial-time solvable problems

发现论文，激发创造

Transformer 学习 HMM 的局限性

该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明，Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外，研究还揭示了 Transformer 的深度与其能够有效学习的最长序列长度之间的关系，并通过实验证明了一种名为块 Chain-of-Thought (CoT) 的变种可以帮助 Transformer 模型减小评估误差且学习更长的序列。最后，理论结果证明了 Transformer 在近似具有对数深度的 HMMs 时的表达能力。

Jun, 2024

Transformer 和循环体系结构在表示能力上的区别

通过实验和理论分析比较了 Transformer 和 RNN 在不同任务上的表征能力、模型大小以及性能差异。

Jun, 2024

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

基于循环神经网络的提及检测鲁棒性探究

本文研究了基于循环神经网络（RNN）的提及检测系统的鲁棒性及其在信息提取中的应用，表明在英语的普通或跨领域的情况下，RNNs 不仅在通用情况下优于之前报告的最佳系统（最多可达 9％的相对错误降低），而且在荷兰语中表现出的命名实体识别相似任务中，RNNs 比传统方法显著优越（最多可达 22％的相对错误降低）。

Feb, 2016

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022

知识密集型多步问题的交错检索与思维链推理

提出了 IRCoT 方法，在多步 QA 过程中使用检索和 CoT 交替进行，同时使用检索的结果来改善 CoT。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 IIRC 四个数据集上，使用 IRCoT 方法取得了显著的检索和 QA 性能改进，即便是在小型模型 T5-Flan-large（0.7B）上也能奏效。

Dec, 2022

Transformer 可解释性转移到 RNN 中吗？

最近在递归神经网络（RNN）架构方面取得的进展，例如 Mamba 和 RWKV，使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过，这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说，我们专注于通过对比激活添加来控制模型输出，使用调整后的镜头引发潜在预测，并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明，当应用于 RNN 时，这些技术大多是有效的，并且我们还展示了通过利用 RNN 的压缩状态，可以改善其中一些技术。

Apr, 2024

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

人类句子加工：循环或注意力？

通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力，本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN，并挑战了人类句子处理涉及循环和即时处理的普遍理念，并提供了线索检索的证据

May, 2020