Feb, 2024

低秩注意力侧调整:参数高效微调

TL;DR通过冻结预训练模型的参数和输出,Low-rank Attention Side-Tuning (LAST) 将可训练模块与预训练模型解耦,通过学习预训练模型的中间输出并专注于学习任务特定的知识,从而实现大大减少 GPU 内存和训练时间的高效下游任务适应。