跨设备联邦学习中语言模型尺寸的扩展

Mar, 2022

跨设备联邦学习中语言模型尺寸的扩展

Scaling Language Model Size in Cross-Device Federated Learning

Jae Hun Ro, Theresa Breiner, Lara McConnaughey, Mingqing Chen, Ananda Theertha Suresh...

TL;DR本文利用局部模型训练、量化、有效的迁移学习和通信高效的优化器等技术来解决服务器 - 客户端通信和设备上计算的瓶颈，实现跨设备联邦学习中的较大语言模型训练，并且获得了与小型 LSTM 相当甚至更好的困惑度和更低的客户端到服务器通信成本。

Abstract

Most studies in cross-device federated learning focus on small models, due to the server-client communication and on-device computation bottlenecks. In this work, we leverage various techniques for mitigating these bottlenecks to train larger →

cross-device federated learning language models partial model training quantization communication-efficient optimizers

发现论文，激发创造

FedYolo：使用预训练变换器增强联邦学习

本研究探讨了使用预训练转换器来实现设备上的联合学习目标，并深入研究了模型大小和模块化的作用，其中 Modularity 通过提示或适配器等模块实现适应性，Scale 能够减少通信次数。结果证明，使用单个通用模型可以解决多个不相关的任务，并且 FedYolo 是一种对规模和模块化具有新的启示且有效的联合学习方法。

Jul, 2023

以通信成本不超过 18 千字节的方式对数十亿级语言模型进行联邦全参数调整

使用零阶优化技术以及一组随机种子，FedKSeed 提出了一种新颖的方法来在设备上直接对十亿级别的预训练大型语言模型进行联邦全参数调整，从而显著减少了服务器和客户端之间的传输需求，并通过策略评估 ZOO 扰动的显著性，提升模型准确度，我们的实验证明该方法在通信效率和新任务泛化方面优于已有的联邦预训练大型语言模型调整方法。

Dec, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

大型语言模型预训练的未来是联邦式的

利用联邦学习的灵活性和适应性，实现大规模的合作，以培训大型语言模型（LLM），并展示联邦训练的有效性与模型规模的关系，以及用有限资源训练十亿级联邦 LLM 的方法。

May, 2024

移动键盘预测的联邦学习

本研究使用分布式联合学习框架 Federated Learning 对一个智能手机虚拟键盘中的递归神经网络语言模型进行训练，证明了在无需导出用户数据到服务器的情况下，在客户端设备上训练语言模型是可行的，在此应用场景中，使用 Federated Averaging 算法进行的训练可以完成更好的预测记忆，这种联合学习的环境可以保护用户数据隐私，使用分布式训练与集中式聚合来将隐私保护的思路融入到训练过程中。

Nov, 2018

公共大型语言模型能帮助私人跨设备联邦学习吗？

本文研究基于大规模公共数据和语言模型的差分隐私联邦学习，提出了一种新的分布匹配算法，以样本高效为目标，实现了基于公共数据训练私有模型的高效和有效的方法。

May, 2023

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

跨移动设备进行百亿规模语言模型的联邦微调

FwdLLM 是一种创新的 FL 协议，通过无需执行误差反向传播训练方法的方式，在手机设备上实现了更好的内存效率和时间效率，具有比传统方法更快的收敛速度和更小的内存占用。

Aug, 2023

差分隐私联邦学习的高效语言模型架构

通过修改递归神经网络中的 Sigmoid 和 Tanh 激活功能，我们提出了一个尺度不变的耦合输入遗忘门（SI CIFG）递归网络模型，该模型在大规模实验中收敛更快且性能更好，对于交叉设备联邦学习和具有差分隐私的联邦学习提供了改进的隐私效用权衡。

Mar, 2024