FedCSD: 基于联邦学习的代码异味检测方法
本文介绍了使用机器学习技术来检测代码坏味道的 DACOS 数据集,该数据集包含了 10,267 个对 5,192 个代码片段的注释,并通过第一阶段确定指标的阈值和第二阶段收集注释来识别潜在主观的代码片段。同时,作者还开发了一个网络应用程序 TagMan,以帮助标注者浏览和标记代码片段并记录提供的注释。这个数据集可以帮助研究人员建立相关的、上下文感知的机器学习模型。
Mar, 2023
提出了FedGT,一种检测联邦学习中恶意客户的新型架构,该架构通过利用客户的重叠组来检测恶意客户的存在并通过解码操作来识别它们。该架构在保护数据隐私的同时实现了提高检测能力和保障安全,通过在剩余客户上进行模型训练,成功地从中识别出带有低误检和误报概率的恶意客户,最终获得高模型效用。
May, 2023
我们提出了一种新颖的解决方案PV4FAD,它结合了全同态加密(HE)、安全多方计算(SMPC)、差分隐私(DP)和随机化技术,以在训练期间平衡隐私和准确性,并防止模型部署时的推理攻击。
Oct, 2023
FedCode是一种降低通信量的分布式机器学习方法,通过只传输代码簿来有效减少客户端与服务器之间的数据交互,同时保持与FedAvg相当的模型性能。
Nov, 2023
本研究调查了联邦学习中取消学习的背景概念、经验证据和实际指南,提出了一种新的分类法对最先进的取消学习算法进行详细分析,并确定了该领域最有前景的研究方向和尚未解决的技术挑战。
Jan, 2024
通过联邦学习的方式,利用分布式私有数据进行协作和隐私保护的大型语言模型(LLM)培训,相较于传统的本地培训方式,取得了明显的性能提升。
Feb, 2024
FedMap是一种新颖的方法,通过协作学习逐渐稀疏全局模型,从而提高联邦学习系统的通信效率,适用于对隐私至关重要的医疗和金融领域。它采用迭代的振幅剪枝方法训练全局模型,以减少通信开销,避免了参数重新激活问题,实现了稳定的性能表现。FedMap在多样的设置、数据集、模型架构和超参数中进行了广泛评估,证明了在IID和非IID环境下的性能,并相较于基线方法,FedMap能够达到更稳定的客户端模型性能,并在不降低准确性的情况下至少实现80%的剪枝。
Jun, 2024
在联邦学习中,我们提出了一种新的算法 FedLog,通过贝叶斯推断只共享局部数据的充分统计信息,以降低通信成本并提供形式化的隐私保证。在实验证明了我们在减少通信成本方面优于其他联邦学习算法。
Jul, 2024
本研究解决了协作训练在代码下一个标记预测中的有效性和数据记忆化的挑战,探讨了不同训练模式下代码生成的准确性和实用性。研究表明,联邦学习在保护数据隐私的同时,能够与集中训练相媲美,但仍存在潜在的数据泄露风险,尤其是在推理阶段。因此,提出了优化多源数据集的建议,以促进跨组织合作。
Sep, 2024