BriefGPT.xyz
Apr, 2025
软max注意力的普适逼近性
Universal Approximation with Softmax Attention
HTML
PDF
Jerry Yao-Chieh Hu, Hude Liu, Hong-Yu Chen, Weimin Wu, Han Liu
TL;DR
本研究解决了自注意力模型在序列映射中的普适逼近性问题。通过引入一种新的基于插值的方法,证明了两层自注意力和一层自注意力后接软max函数可以逼近任意连续函数。研究结果表明,仅使用两层多头注意力即可实现序列到序列的普适逼近,显示出该方法在上下文中近似多种统计模型的潜力。
Abstract
We prove that with linear transformations, both (i) two-layer self-
Attention
and (ii) one-layer self-
Attention
followed by a softmax function are universal approximators for continuous
→