Jun, 2023
只需一个字节(每梯度):关于使用共享随机性进行低带宽分散化语言模型微调的注记
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness
Eric Zelikman, Qian Huang, Percy Liang, Nick Haber, Noah D. Goodman
TL;DR本研究提出了一种基于共享随机性的分布式微调方法,通过使用单字节的梯度交换,减少了通信成本,并保留了最近研究中的内存效率和推理优势。