May, 2023

基于 Transformer 网络的序列建模近似理论

TL;DR本文探讨了 Transformer 在逼近序列关系上的能力和结构属性,通过证明其 hypothesis 空间的普适逼近定理,得出了一种新的正则化概念,并对其逼近率进行了显式估计,进而揭示了其与传统序列建模方法之间的结构偏差。