BriefGPT.xyz
Ask
alpha
关键词
linear transformer block
搜索结果 - 1
线性变换器块中上下文学习的好处:MLP 组件和一步梯度下降初始化
研究了线性变换器块(LTB)的上下文学习(ICL)能力,证明了 LTB 可以实现几乎贝叶斯最优的 ICL 风险,并且通过多层感知器(MLP)层减小了近似误差。
PDF
4 months ago
Prev
Next