- 安全地使用私有数据:大规模语言模型的联邦学习框架
我们提出了一种用于大型语言模型的联邦学习框架 FL-GLM,通过在本地客户端放置输入块和输出块以防止来自服务器的嵌入梯度攻击,使用密钥加密来防止来自对端客户端的逆向工程攻击,并采用客户端批处理或服务器分层等优化方法来提高训练效率。通过在 N - 具差分隐私的联邦学习
我们展示了在不同类型的数据上,客户端数量和差分隐私机制的增加对模型性能的影响的实证基准,结果显示在分布式和差分隐私设置中,非独立同分布和小数据集的性能降低最为显著。
- 公私梯度耦合可证明地改善优化
通过优化公共数据和私有数据的梯度加权线性组合,本研究分析了梯度联合的最佳权重和超参数对于非凸损失函数收敛性的加速及对语言和视觉基准的影响,为梯度联合的最优权重选择提供了指导。
- 为提高选定度量的效用而后处理私有合成数据
本研究介绍了一种后处理技术,使用有效的随机一阶算法从合成数据中进行重新采样,以过滤不符合选定效用度量标准的样本,提高了合成数据的效用,并保持强大的隐私保护和数据集质量。
- PQLM -- 多语言去中心化便携式量子语言模型用于隐私保护
本文提出了一种高度可移植的量子语言模型 (PQLM),它可以在经典计算机上向下游任务轻松传输信息,并演示了在经典计算机上将 PQLM 的词嵌入有效地应用于下游任务。该 PQLM 具有与其经典对应物相当的性能,并为量子预训练语言模型的理论基础 - ICML分布式离散高斯机制在带有安全聚合的联邦学习中的应用
本文提出了一种基于离散高斯和安全聚合的训练模型方法,以保护私有数据。通过数据量化和添加离散高斯噪音,能够实现通信、隐私和准确性之间的复杂平衡,此方法在少于 16 位精度的情况下几乎能匹配集中式差分隐私的准确性水平。
- 在网络边缘提取设备上的智能
本文讨论了如何使用雾计算从分散在无线连接设备上的用户产生的私有数据中提炼高质量的设备端机器学习模型。作者提出了一种名为 Fog ML(FML)的通信高效、隐私保护的分布式机器学习框架,通过交换模型参数、模型输出和代理数据来训练设备端机器学习 - KDD外包数据上的决策树分类
本文提出了针对外包的私人数据的客户端 - 服务器决策树学习方法,通过解密仅受客户端掌握的密钥,实现将敏感信息与识别信息分离;在保证可接受的决策树准确率的基础上,降低了客户计算资源的需求,使大量工作在服务器端完成
- 多方数据隐私学习
本文提出了一种如何从不同方的私有数据中构建准确的差分隐私全局分类器的方法,即通过从辅助非标记数据创建标记数据,然后训练全局的差分隐私分类器来转移本地分类器集成的 “知识”,我们通过从集成估计的类概率加权的新风险进行了解决。我们的解决方案相对 - 经验机器学习的差分隐私算法
本文提出了一种基于差分隐私的算法,用于处理实际应用中的分类问题及测试过程中的评估,包括特征选择和 ROC 曲线。
- 本地隐私与极小极大界:概率估计的尖锐率
本文详细研究了在保持从统计学家隐藏数据的严格设置中概率分布(离散和连续)的估计,给出了这些本地私有设置中估计的尖锐最小极限速率,展示了隐私和收敛速率之间的根本权衡,以及提供允许沿隐私 - 统计效率连续体移动的工具。我们结果的一个后果是,华纳 - 网络隐私拍卖
本文研究了以差分隐私为视角的私人数据市场。我们提出了一个理论框架,通过设计拍卖机制,为数据所有者提供合理的隐私损失补偿,并与数据分析师的准确性和预算要求达成平衡。同时,我们证明了在这种场景下,经典的维克里竞拍具有较高的优化效果。