BriefGPT.xyz
Ask
alpha
关键词
recurrent adaption
搜索结果 - 1
大型 Transformer 的循环适应
本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法,可以在保持高模型质量的情况下,大大降低训练的内存消耗和 GPU 能源使用,特别适用于微调大型 Transformers 模型。
PDF
a year ago
Prev
Next