Jun, 2023

只需一个字节(每梯度):关于使用共享随机性进行低带宽分散化语言模型微调的注记

TL;DR本研究提出了一种基于共享随机性的分布式微调方法,通过使用单字节的梯度交换,减少了通信成本,并保留了最近研究中的内存效率和推理优势。