Jun, 2024

Transformer 推理能力的界限与归纳式草稿板

TL;DR此论文提出了 “分布局部性” 的概念,用于捕捉正常 Transformer 模型有效实现弱学习的情况,同时证明了分布局部性高的情况下不能高效学习,并且介绍了通过破坏分布局部性和改进超出分布泛化能力的 “归纳式草稿” 概念。