BriefGPT.xyz
Ask
alpha
关键词
forward computations
搜索结果 - 1
训练大型语言模型的梯度计算的细粒度复杂度
大型语言模型的训练可以通过前向计算和后向计算来实现,前向计算可以被视为注意力函数的评估,后向计算可以被视为梯度计算。本文证明了在某些参数范围内前向计算可以在几乎线性的时间内完成,但在其他参数范围内,除非流行的假设 SETH 是错误的,否则没
→
PDF
5 months ago
Prev
Next