Mar, 2024

基于块选择性重编程的视觉 Transformer 设备端训练

TL;DR通过研究现有的内置训练方法的局限性,本文提出了基于块选择性重编程(BSR)的方法,在部分冻结层的基础上,根据自注意力得分从预训练模型中选择性地丢弃令牌,有效地减少训练内存和计算成本,同时保持相似的准确性,适用于多任务学习场景。