Feb, 2024

借助马尔科夫链的注意力:通过马尔科夫链分析 Transformer 的原则框架

TL;DR通过马尔可夫链的角度研究变压器的序列建模能力,并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。