BriefGPT.xyz
Ask
alpha
关键词
adapprox
搜索结果 - 1
Adapprox:通过随机低秩矩阵在 Adam 优化中进行自适应逼近
Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法,在 GPT-2 训练和下游任务中,Adapprox 相比 AdamW 能够实现 34.5%到 49.9%和 33.8%到 49.9%的内存节省,并且
→
PDF
4 months ago
Prev
Next