Jun, 2023

Transformers 作为统计学家:具有证明的上下文学习和上下文算法选择

TL;DR本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。