BriefGPT.xyz
大模型
Ask
alpha
关键词
icl generalization capability
搜索结果 - 1
非线性变压器的高效上下文学习训练:理论学习和泛化分析
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理
→
PDF
4 months ago
Prev
Next