May, 2025

超越低秩分解:高效的设备端学习快捷方法

TL;DR本研究解决了设备端学习中内存和计算约束的问题,提出了一种新的快捷方法作为低秩分解方法的替代。实验结果表明,该方法在降低激活内存使用方面最优可达到$120.09\times$,同时在传统基准上还可减少训练FLOPs高达$1.86\times$。