BriefGPT.xyz
Ask
alpha
关键词
scratchpad
搜索结果 - 2
Transformer 推理能力的界限与归纳式草稿板
此论文提出了 “分布局部性” 的概念,用于捕捉正常 Transformer 模型有效实现弱学习的情况,同时证明了分布局部性高的情况下不能高效学习,并且介绍了通过破坏分布局部性和改进超出分布泛化能力的 “归纳式草稿” 概念。
PDF
a month ago
展示计算过程:中间计算与语言模型的草稿本
利用逐步计算的方法,通过训练变换器模型在少量数据中输出中间运算结果到 “scratchpad”,为多步计算任务赋能,从而显著提高预训练语言模型处理复杂计算的能力。
PDF
3 years ago
Prev
Next