Feb, 2024

基于 Transformer 的上下文学习:Softmax 注意力适应函数的 Lipschitz 特性

TL;DR在隐含背景数据的推断过程中,探索了 softmax 注意力机制在回归任务中的作用,发现注意力单元通过学习窗口,可以适应不同的预训练任务,并随着 Lipschitz 性质降低和标签噪声增加而扩大,同时对于低秩线性问题,注意力单元可以在推断之前进行适当的投影。此外,该适应性依赖于 softmax 激活函数,不同于传统线性激活函数的理论分析。