FedJudge: 联合法律大型语言模型
提出了联邦式大规模语言模型(LLM)的概念,并讨论了其三个关键组成部分:联邦式 LLM 预训练、联邦式 LLM 微调和联邦式 LLM 提示工程。还探讨了联邦学习和大规模语言模型整合所带来的新挑战,并分析了现有解决方案和潜在障碍。
Jul, 2023
通过硬件为中心的方法,本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统,并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调,以进行文本摘要任务。通过与数据中心 GPU 的比较,我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力,并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。
Oct, 2023
通过联邦学习的方式,利用分布式私有数据进行协作和隐私保护的大型语言模型(LLM)培训,相较于传统的本地培训方式,取得了明显的性能提升。
Feb, 2024
在联邦学习设置中,本文讨论了联邦微调语言模型 (LLMs) 的挑战,并引入了我们的 FS-LLM 软件包作为主要贡献,该软件包提供了全面的联邦参数高效微调算法实现和通用的编程接口,以实现低通信和计算成本的联邦学习场景。同时,本文进行了大量实验证明了 FS-LLM 的有效性,并为研究社区提供了有关联邦微调语言模型的宝贵见解。
Sep, 2023
提出了一种名为 FedEval-LLM 的大型语言模型联邦评估框架,通过利用参与者提供的个性化语言模型,提供了一种可靠的大型语言模型在下游任务中的性能测量方式,确保了强大的隐私保护能力,解决了传统评估方法和对外部服务的依赖性的限制,是协作训练场景中语言模型评估的一种有前景的框架。
Apr, 2024
利用联邦学习的灵活性和适应性,实现大规模的合作,以培训大型语言模型(LLM),并展示联邦训练的有效性与模型规模的关系,以及用有限资源训练十亿级联邦 LLM 的方法。
May, 2024
我们提出了一种用于大型语言模型的联邦学习框架 FL-GLM,通过在本地客户端放置输入块和输出块以防止来自服务器的嵌入梯度攻击,使用密钥加密来防止来自对端客户端的逆向工程攻击,并采用客户端批处理或服务器分层等优化方法来提高训练效率。通过在 NLU 和生成任务上的实验结果,证明了 FL-GLM 与集中式 chatGLM 模型具有可比较的指标,验证了我们的联邦学习框架的有效性。
Jun, 2024
FwdLLM 是一种创新的 FL 协议,通过无需执行误差反向传播训练方法的方式,在手机设备上实现了更好的内存效率和时间效率,具有比传统方法更快的收敛速度和更小的内存占用。
Aug, 2023
调查了联邦学习大型语言模型的最新进展,重点关注了机器遗忘这一关键方面,以符合数据隐私和被遗忘权等隐私法规;通过探索各种策略,如扰动技术、模型分解和增量学习等,而无需从头重新训练,实现从联邦学习的大型语言模型中安全有效地删除个别数据贡献,强调它们对于维持模型性能和数据隐私的意义;此外,通过案例研究和实验结果,评估这些方法在实际场景中的有效性和效率;调查揭示了在人工智能伦理和分布式机器学习技术交叉领域中发展更强大和可扩展的联邦遗忘方法的日益关注,也为未来研究提供了重要领域。
Jun, 2024