Jun, 2024

Transformer 学习 HMM 的局限性

TL;DR该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明,Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外,研究还揭示了 Transformer 的深度与其能够有效学习的最长序列长度之间的关系,并通过实验证明了一种名为块 Chain-of-Thought (CoT) 的变种可以帮助 Transformer 模型减小评估误差且学习更长的序列。最后,理论结果证明了 Transformer 在近似具有对数深度的 HMMs 时的表达能力。