大型语言模型的去中心化训练鲁棒性探索
本论文研究了分散式深度学习模型的训练,提出了共识距离作为影响中心式和分散式训练效果的关键因素,并在理论和实验上证明了降低共识距离可以提高分散式训练模型的泛化性能。同时,本论文提供了实用的训练指南以缓解训练效果下降。
Feb, 2021
Federated Learning is proposed as an alternative to logging and training in a data center by aggregating locally-computed updates on mobile devices to improve the user experience. The approach is shown to be robust to non-IID data distributions and reduce required communication rounds by 10-100x compared to synchronized stochastic gradient descent.
Feb, 2016
通过联邦学习,在全球范围内构建联邦的语言模型训练系统 (WorldLM),以解决大规模语言模型训练所面临的法律、安全、隐私等挑战,并通过局部模型本地化、残差层嵌入等方法,提升性能并保护隐私。
May, 2024
这篇论文通过揭示分散式联邦学习(DFL)通信潜在风险,介绍一种专为 DFL 平台设计的安全模块,结合对称和非对称加密以及移动目标防御(MTD)技术,有效地应对通信攻击,并通过实验证实了该安全模块的有效性。
Jul, 2023
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
Nov, 2023
本文比较了几种对抗训练语言模型的不同方法,包括预训练数据增强,输入空间扰动和嵌入空间扰动,发现输入空间扰动或预训练数据增强可以提高鲁棒性,而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明,泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。
Nov, 2022
本文提出了一个名为 Learning@home 的神经网络训练新范式,基于大量的志愿者 PC,可以高效地训练大型网络,与传统的分布式训练方式进行对比并分析了性能、可靠性和架构约束。
Feb, 2020