联邦学习与自然语言处理:概述
提出使用联邦学习算法来训练生产级的 n-gram 语言模型,以解决在处理隐私敏感数据时面临的数据安全问题,该算法特别适用于便携式设备,如智能手机。同时通过将递归神经网络语言模型近似为能快速部署在设备上进行推理的 n-gram 模型,实现了联邦学习在虚拟键盘等场景下的应用。
Oct, 2019
本研究提出 FedNLP 框架,用于比较研究隐私保护、分散式学习方法在自然语言处理任务中的表现,并分析不同分区策略下联邦学习方法与自然语言处理的关联,为未来的研究提供借鉴。
Apr, 2021
本研究探讨了在缺乏训练样本标签的情况下,如何通过建立一种命名为 FFNLP 的系统,使用伪标注技术和提示学习技术的算法进化来实现联邦学习模型的训练,以优化移动设备自然语言处理 (NLP) 应用程序的性能。
Dec, 2022
本文从信号处理的角度提出联邦学习的理论框架,研究了联邦学习的挑战以及针对这些挑战的一些方法,同时提供设计和适应信号处理和通信方法的指南,以促进联邦学习的大规模实现。
Mar, 2021
本文通过将联邦学习应用在命名实体识别任务中,使用具有语言无关性的 CoNLL-2003 数据集作为基准数据集,Bi-LSTM-CRF 模型作为基准模型,研究了联邦学习的性能,展示了联邦学习相对于集中式模型在不同的异构学习环境下的性能降低,并讨论了联邦学习在自然语言处理应用领域中的现存挑战和未来研究方向。
Mar, 2022
通过对 $2$ 个生物医学自然语言处理任务使用 $6$ 个语言模型评估联邦学习在医学领域的应用,结果显示:1)联邦学习模型在总体表现上优于单个客户数据训练的语言模型,有时甚至与整合数据训练的模型持平;2)当数据总量固定时,使用更多客户训练的语言模型表现较差,但基于预训练模型的转换器表现更加强劲;3)联邦学习训练的语言模型在客户数据独立同分布的情况下与整合数据训练的模型表现接近,但在非独立同分布数据下有明显差距。
Jul, 2023
分布式学习框架 - 联邦学习增强了个人数据隐私保护,允许协作研究且无需共享敏感数据;通过多源信息合作,提供更多种类的洞察力。本文是对隐私保护机器学习的系统性文献综述,通过 PRISMA 指南对近年来得出的有关联邦学习的监督 / 非监督机器学习算法、集成方法、元启发式方法、区块链技术和强化学习,以及联邦学习应用进行了广泛回顾。旨在为研究人员和实践者提供从机器学习角度对联邦学习的全面概述,并提供了一些开放问题和未来研究方向的讨论。
Nov, 2023
调查了联邦学习大型语言模型的最新进展,重点关注了机器遗忘这一关键方面,以符合数据隐私和被遗忘权等隐私法规;通过探索各种策略,如扰动技术、模型分解和增量学习等,而无需从头重新训练,实现从联邦学习的大型语言模型中安全有效地删除个别数据贡献,强调它们对于维持模型性能和数据隐私的意义;此外,通过案例研究和实验结果,评估这些方法在实际场景中的有效性和效率;调查揭示了在人工智能伦理和分布式机器学习技术交叉领域中发展更强大和可扩展的联邦遗忘方法的日益关注,也为未来研究提供了重要领域。
Jun, 2024
本文提供了一种系统的概述和分类,涵盖了联邦学习的现有安全挑战以及针对数据污染,推断攻击和模型毒化攻击的防御技术。此外,还探讨了处理非独立同分布数据、高维度问题和异构架构的联邦学习的当前训练挑战,并提出了解决相关挑战的几种解决方案。最后,我们讨论了联邦学习训练中剩余的挑战,并提出了针对开放问题的研究方向建议。
Apr, 2022