May, 2023

大型 Transformer 的循环适应

TL;DR本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法,可以在保持高模型质量的情况下,大大降低训练的内存消耗和 GPU 能源使用,特别适用于微调大型 Transformers 模型。