Apr, 2025

软max注意力的普适逼近性

TL;DR本研究解决了自注意力模型在序列映射中的普适逼近性问题。通过引入一种新的基于插值的方法,证明了两层自注意力和一层自注意力后接软max函数可以逼近任意连续函数。研究结果表明,仅使用两层多头注意力即可实现序列到序列的普适逼近,显示出该方法在上下文中近似多种统计模型的潜力。