Transformer 学习 HMM 的局限性

Jun, 2024

On Limitation of Transformer for Learning HMMs

Jiachen Hu, Qinghua Liu, Chi Jin

TL;DR该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明，Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外，研究还揭示了 Transformer 的深度与其能够有效学习的最长序列长度之间的关系，并通过实验证明了一种名为块 Chain-of-Thought (CoT) 的变种可以帮助 Transformer 模型减小评估误差且学习更长的序列。最后，理论结果证明了 Transformer 在近似具有对数深度的 HMMs 时的表达能力。

Abstract

Despite the remarkable success of transformer-based architectures in various sequential modeling tasks, such as natural language processing, computer vision, and robotics, their ability to learn basic sequential models, like Hidden Markov Models (HMMs), is still unclear. This paper inv

transformer-based architectures hidden markov models (hmms)recurrent neural networks (rnns)training speed expressiveness

发现论文，激发创造

RNNs 并非变形金刚（尚未如此）：上下文检索的关键瓶颈

本研究探讨了递归神经网络（RNNs）和变压器（Transformers）在解决算法问题时的表示能力差距，发现通过 Chain-of-Thought 提示，RNNs 能够提高性能，但无法与 Transformers 靠近，而 RNNs 通过增强上下文检索能力的技术，如 RAG 和添加单个 Transformer 层，可以解决所有多项式时间可解问题，从而消除与 Transformers 之间的表示差距。

Feb, 2024

利用隐马尔科夫模型提高循环神经网络的可解释性

通过将循环神经网络与隐马尔科夫模型相结合，旨在增加其可解释性，发现 LSTM 和 HMM 可以学习互补的文本特征信息。

Jun, 2016

用 Transformer 网络探测水文预测的极限

本文研究发现，普通 Transformer 结构在水文建模方面的性能不如 LSTM 结构；去除循环结构的变体可以与 LSTM 相媲美，但是与当前最先进技术相比性能并不突出。

Jun, 2023

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

使用隐马尔可夫模型提高循环神经网络的可解释性

本文介绍了一种利用长短时记忆模型和隐马尔科夫模型相结合的方法来提高循环神经网络的可解释性的途径，并在文本数据和医疗时间序列数据上测试了该算法，发现 LSTM 和 HMM 学习文本特征的信息互为补充。

Nov, 2016

因果转换器在递归嵌套结构上表现低于随机，不如人类

研究发现，当处理嵌套构造中存在长距离嵌入依赖时，尽管 Transformer 语言模型在处理短距离嵌入依赖时表现接近完美，但表现却远低于机会水平，这揭示了 Transformers 在结构化的递归处理中的缺陷。

Oct, 2021

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

R-Transformer：加强循环神经网络的 Transformer 模型

本文提出了 R-Transformer 模型，结合了 RNN 和多头注意力机制的优点，同时避免了它们各自的缺点，能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明，在大多数任务中，R-Transformer 优于最先进的方法。

Jul, 2019

Transformer 是多状态循环神经网络

通过实验证明，解码器 - 只转换器实际上可以被概念化为无限多状态的循环神经网络（RNN）的一种变体，而预训练转换器可以通过固定隐藏状态的大小转换为有限多状态的 RNN。我们引入了一种简单的转换策略 TOVA，实验证明 TOVA 在长距离任务中优于其他基准策略，与完整（无限）模型几乎持平，并且在某些情况下只使用原始缓存大小的 1/8。此研究结果表明，转换器解码器语言模型在实践中常表现为 RNN，并提供了减轻其最痛苦的计算瓶颈之一（缓存内存大小）的选择。

Jan, 2024