Apr, 2025
注意力机制、最大仿射划分与通用逼近
Attention Mechanism, Max-Affine Partition, and Universal Approximation
TL;DR本研究解决了单层、单头自注意力和交叉注意力机制在通用逼近能力方面的不足。我们的创新在于将单头注意力解释为一种输入域划分机制,通过工程化注意力权重以模仿目标函数的分配,证明了其能逼近紧致域上的任意连续函数,并扩展到任何Lebesgue可积函数。这一发现为单头交叉注意力提供了同样的通用逼近保证。