Feb, 2024
借助马尔科夫链的注意力:通过马尔科夫链分析 Transformer 的原则框架
Attention with Markov: A Framework for Principled Analysis of Transformers via Markov Chains
Ashok Vardhan Makkuva, Marco Bondaschi, Adway Girish, Alliot Nagle, Martin Jaggi...
TL;DR通过马尔可夫链的角度研究变压器的序列建模能力,并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。