本研究提出了基于域自适应技术扩展人口规模的方案,以加速小规模人口的训练并提高最终模型质量。实证结果表明,该技术可将实际语言建模数据集的效用提高 13% 至 30%。
Jul, 2023
通过个性化差分隐私框架和考虑各种异构性和属性调整的方法,该论文提出了一种高效地保护隐私的个性化差分隐私框架,并对联邦学习算法的收敛边界进行了分析,同时进一步研究了考虑时间变化的个性化因素的收敛性质。
Jun, 2024
提出使用联邦学习算法来训练生产级的 n-gram 语言模型,以解决在处理隐私敏感数据时面临的数据安全问题,该算法特别适用于便携式设备,如智能手机。同时通过将递归神经网络语言模型近似为能快速部署在设备上进行推理的 n-gram 模型,实现了联邦学习在虚拟键盘等场景下的应用。
Oct, 2019
本文研究基于大规模公共数据和语言模型的差分隐私联邦学习,提出了一种新的分布匹配算法,以样本高效为目标,实现了基于公共数据训练私有模型的高效和有效的方法。
May, 2023
使用联邦学习和差分隐私技术来保护隐私,同时采用 PEU、LoRA 和 NCE 等技术来降低大模型的噪声和内存需求,从而成功地在计算受限设备上训练大词汇量的语言模型。
Jul, 2022
本研究使用分布式联合学习框架 Federated Learning 对一个智能手机虚拟键盘中的递归神经网络语言模型进行训练,证明了在无需导出用户数据到服务器的情况下,在客户端设备上训练语言模型是可行的,在此应用场景中,使用 Federated Averaging 算法进行的训练可以完成更好的预测记忆,这种联合学习的环境可以保护用户数据隐私,使用分布式训练与集中式聚合来将隐私保护的思路融入到训练过程中。
Nov, 2018
本研究提出了一种新颖的联邦最近邻机器翻译框架(FedNN),利用一轮基于记忆的交互来在不同客户端之间共享知识,并整合由私有文本数据构建的外部数据存储库,以构建低开销的隐私保护系统。用于机器翻译任务的传统 FL 算法在 FedNN 框架中被取代,它显著降低了计算和通信成本,并在不同 FL 设置中保持了良好的性能。
Feb, 2023
应用差分隐私和联邦学习算法,在 Google 键盘(Gboard)的多个模型中实现了高效且可靠的隐私保障,并提供了基于分位数估计的剪辑规范自适应方法,为学习者提供了具体建议。
本研究提出 FedNLP 框架,用于比较研究隐私保护、分散式学习方法在自然语言处理任务中的表现,并分析不同分区策略下联邦学习方法与自然语言处理的关联,为未来的研究提供借鉴。
Apr, 2021
本研究探讨在差分隐私联邦学习的领域中,通过知识迁移和基于数据标签投票的方法替代梯度平均来减少通信成本和避免维度依赖性,从而提高了差分隐私保证与模型效用的平衡。
Oct, 2020