协作代码生成模型的前景与风险：平衡有效性与记忆化

Sep, 2024

协作代码生成模型的前景与风险：平衡有效性与记忆化

Promise and Peril of Collaborative Code Generation Models: Balancing Effectiveness and Memorization

Zhi Chen, Lingxiao Jiang

TL;DR本研究解决了协作训练在代码下一个标记预测中的有效性和数据记忆化的挑战，探讨了不同训练模式下代码生成的准确性和实用性。研究表明，联邦学习在保护数据隐私的同时，能够与集中训练相媲美，但仍存在潜在的数据泄露风险，尤其是在推理阶段。因此，提出了优化多源数据集的建议，以促进跨组织合作。

Abstract

In the rapidly evolving field of machine learning, training models with datasets from various locations and organizations presents significant challenges due to privacy and legal concerns. The exploration of effective Collaborative Training settings capable of leveraging valuable knowl

发现论文，激发创造

理解联邦学习中的非预期记忆

本文探讨了联邦学习框架与中央学习环境下对非预期记忆的影响，发现在联邦学习中，根据用户对数据进行聚类的过程能够显著降低非预期记忆，使用联邦平均法进一步降低，训练具有差分隐私保证的模型则表现出最少的非预期记忆。

Jun, 2020

小型非独立同分布客户端数据上的双编码模型联邦训练

本文提出了用于分布式数据的二元编码模型的联邦训练方法DCCO（Distributed Cross Correlation Optimization），并将其与现有联邦方法进行了比较，实验结果显示DCCO的性能优于现有联邦方法。

Sep, 2022

联邦基础模型：大型模型的隐私保护和协同学习

本文介绍了一种结合了联邦学习和基础模型的隐私保存方法，即联邦基础模型，其中涉及该方法的不同方面和任务，以及与传统基础模型的比较和实验。

May, 2023

FedCSD: 基于联邦学习的代码异味检测方法

本研究提出了一种联邦学习代码异味检测(FedCSD)方法，允许组织在保护数据隐私的同时协作训练联邦机器学习模型，并验证了在不同场景下的性能和有效性。

May, 2023

联邦学习中的共享内容调查：模型效用、隐私泄露和通信效率的观点

通过从新的角度，即什么在联邦学习中共享，以模型效用、隐私泄露和通信效率为重点，系统调查了联邦学习方法的新分类、隐私攻击的脆弱性以及不同共享方法的性能与隐私保护的效力，并讨论了当前方法存在的潜在缺陷和未来改进的方向。

Jul, 2023

联邦取消学习：方法、设计指导和评估指标综述

本研究调查了联邦学习中取消学习的背景概念、经验证据和实际指南，提出了一种新的分类法对最先进的取消学习算法进行详细分析，并确定了该领域最有前景的研究方向和尚未解决的技术挑战。

Jan, 2024

OpenFedLLM: 基于联邦学习在去中心化私有数据上训练大型语言模型

通过联邦学习的方式，利用分布式私有数据进行协作和隐私保护的大型语言模型（LLM）培训，相较于传统的本地培训方式，取得了明显的性能提升。

Feb, 2024

SoK：联邦反学习的挑战与机遇

这篇论文从事一项关于联邦消除学习（federated unlearning）的研究，通过对已发表的联邦学习消除（FL unlearning）相关论文的分类和分析，探讨了联邦学习消除领域的研究趋势和挑战，比较了现有联邦学习消除方法的影响消除和性能恢复能力，以及他们的假设和局限性。该研究为未来联邦学习消除的研究提供了洞见和建议。

Mar, 2024

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过53个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

简短高效：修剪长文件以进行代码生成

数据修正在LLM训练中被认为是一种“秘诀”，质量更高的数据通常会导致更好的LLM性能。本文比较了基于嵌入和基于启发式的数据过滤方法，并发现在计算受限的情况下，简单的启发式方法（修剪长代码文件）在训练效率和性能方面优于其他方法。

Jun, 2024