BriefGPT.xyz
Ask
alpha
关键词
memorization process
搜索结果 - 1
超越缩放定律:理解具有关联记忆的 Transformer 性能
增加 Transformer 模型的大小并不总是导致性能提升,用经验缩放定律无法解释此现象。此外,模型记忆训练样本会改善泛化能力。我们提出了一个理论框架,揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的
→
PDF
2 months ago
Prev
Next