理解联邦学习中的非预期记忆

Jun, 2020

Understanding Unintended Memorization in Federated Learning

Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Françoise Beaufays

TL;DR本文探讨了联邦学习框架与中央学习环境下对非预期记忆的影响，发现在联邦学习中，根据用户对数据进行聚类的过程能够显著降低非预期记忆，使用联邦平均法进一步降低，训练具有差分隐私保证的模型则表现出最少的非预期记忆。

Abstract

Recent works have shown that generative sequence models (e.g., language models) have a tendency to memorize rare or unique sequences in the training data. Since useful models are often trained on sensitive data, to ensure the →

发现论文，激发创造

联邦学习中的被遗忘权利：一种高效的快速重训练实现

本研究旨在研究联邦学习（FL）系统中的机器非重学习问题，提出了一种快速数据淘汰方法以保护数据隐私，并在四项真实数据集上进行了测试和分析。

Mar, 2022

通过交替教学减少语言模型中意外记忆

提出了一种新的交替教学方法来减少语言模型在训练集中记忆罕见或独特序列而导致泄漏用户数据的现象，该方法采用多个教师模型对各自独立的训练集进行训练，并以教师模型预测结果作为学生模型的监督信号，实验结果表明这种方法达到了比其他方法更好的隐私保护效果，而当训练数据充足时对整体效果损失很小。

Oct, 2022

联邦学习中的知识编辑：视角、挑战和未来方向

这篇文章是一篇关于联邦学习中知识编辑的综述性论文，其中介绍了一个被称为Federated Editable Learning的整合范式，并提供了现有方法的综合概述，评估了它们在提出的范式内的位置和它们面临的挑战，并探索未来研究的潜在途径和未解决问题。

Jun, 2023

不记忆，模仿历史：无序列记忆联邦类迭代学习

本文提出了一个基于泛化模型的联邦分类增量学习框架，可以在没有直接访问过去数据的情况下通过合成先前分布的样本，来减少来自各个用户的对策略的类别过程。

Jul, 2023

主动遗忘的联邦取消学习

基于增量学习、主动遗忘和弹性权重约束的新型联邦遗忘框架，有效解决联邦学习中的遗忘问题。

Jul, 2023

通信高效且可证明的联邦反学习

研究联邦去学习问题，解决个别客户或数据对通过联邦学习得到的全局模型的影响，推导出所删除数据的无合差异性模型。引入了一种新的完全联邦去学习框架，满足通信效率和完全去学习可证明性的两个基本条件。通过定义确切的联邦去学习，保证无学习之后的模型与未删除数据时训练的模型在统计上无差异。利用模型参数对数据集轻微变化的变动程度来实现快速联邦去学习的关键特性：总变差稳定性。利用这一洞见，我们开发了一种名为FATS的总变差稳定的联邦学习算法，修改了经典的FedAvg算法以实现轮次通信的降低。我们还设计了针对FATS的高效去学习算法，包括客户级和样本级的去学习。我们提供了学习和去学习算法的理论保证，证明它们在原始模型和去学习模型上都达到了确切的联邦去学习，并具有合理的收敛速度。在6个基准数据集上经过实证验证，展示了该框架在准确性、通信成本、计算成本和去学习效果方面的优越性。

Jan, 2024

回顾：联邦学习中的理解和减轻遗忘

研究探索了联邦学习中遗忘现象对算法收敛的影响，引入了度量遗忘程度的指标，并提出了一种动态蒸馏方法的联邦学习算法Flashback，以提高模型聚合的效果和减少遗忘现象，实现更快的收敛速度和准确性。

Feb, 2024

面向联邦域去学习的验证方法和挑战

我们的研究第一次全面系统地研究了多领域上下文中现有技术在联邦领域消除中的特征和挑战，揭示了忽视领域特定数据对模型行为的细微影响所造成的性能下降和准确性损失。为此，我们提出了专为联邦领域消除量身定制的新型评估方法，旨在在不损害模型整体完整性和性能的情况下准确评估和验证领域特定数据的消除，为联邦学习中的领域中心化消除策略提供了切实可行的先例。

Jun, 2024

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

协作代码生成模型的前景与风险：平衡有效性与记忆化

本研究解决了协作训练在代码下一个标记预测中的有效性和数据记忆化的挑战，探讨了不同训练模式下代码生成的准确性和实用性。研究表明，联邦学习在保护数据隐私的同时，能够与集中训练相媲美，但仍存在潜在的数据泄露风险，尤其是在推理阶段。因此，提出了优化多源数据集的建议，以促进跨组织合作。

Sep, 2024