BriefGPT.xyz
Ask
alpha
关键词
parallel streams
搜索结果 - 1
ICLR
理解 Transformer 中的加法
这篇论文通过深入分析一个层次的 Transformer 模型在整数加法训练中的使用,揭示了该模型将任务划分为并行的、特定于数字的流,并对不同的数字位置采用不同的算法。研究还发现模型开始计算较晚但执行较快,识别并解释了一个稀有但损失较高的使用
→
PDF
9 months ago
Prev
Next