Feb, 2024

线性变换器块中上下文学习的好处:MLP 组件和一步梯度下降初始化

TL;DR研究了线性变换器块(LTB)的上下文学习(ICL)能力,证明了 LTB 可以实现几乎贝叶斯最优的 ICL 风险,并且通过多层感知器(MLP)层减小了近似误差。