神经代码补全模型是否使用了我的代码？一种成员推断方法

Apr, 2024

神经代码补全模型是否使用了我的代码？一种成员推断方法

Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach

Yao Wan, Guanghua Wan, Shijie Zhang, Hongyu Zhang, Yulei Sui...

TL;DR我们研究了当前神经代码完成模型的法律和道德问题，通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题，而 CodeGen 和 StarCoder 模型的数据成员资格很难检测，有待进一步改进。

Abstract

Recent years have witnessed significant progress in developing deep learning-based models for automated code completion. Although using source code in GitHub has been a common practice for training deep-learning-based models for code completion, it may induce some →

deep learning-based models automated code completion legal and ethical issues membership inference approach neural code completion models

发现论文，激发创造

神经代码补全模型对情况进行尺寸评估：通过动态模型推理实现更便宜和更快的补全

利用动态推理方法优化神经代码补全模型，节约计算资源，减少计算成本，并通过决策机制主动防止生成错误代码。

Jan, 2024

基于 Transformer 的智能调用自动代码完成方法

我们开发了一个机器学习模型，可以根据代码上下文和可用的遥测数据准确预测何时调用代码补全工具，该模型显著优于基准模型并在维持低延迟的同时集成了一些额外的遥测数据。

May, 2024

现代 IDE 中的代码完成的序列模型设计

我们提出了一种结合静态分析和语言模型预测词汇分布的方法，以实现代码完成实时性、准确性及有效性，提高模型的适用性与可用性。

Apr, 2020

快速且高效的神经网络代码补全

本研究旨在解决深度学习模型内存消耗大的问题，通过模块化的神经框架探索多种技术，并设计一种新颖的基于静态分析和细粒度令牌编码相结合的神经重排序模型，其消耗内存仅为 6MB，计算单个补全所需仅 8ms，最高精度达到 90%。

Apr, 2020

基于多任务学习的预训练语言模型 —— 代码补全

本文介绍了一种基于多任务学习的预训练语言模型，采用 Transformer 神经网络架构，通过混合目标函数进行预训练，可以更好地理解和生成代码；在实验中证明了该模型相比现有的方法更为有效，尤其在完成标识符的任务上效果显著。

Dec, 2020

代码补全的语言模型：实践评估

基于 Transformer 的语言模型在自动代码补全方面显示出巨大的潜力，但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。

Feb, 2024

LLM 数据推断：你在我的数据集上训练了吗？

大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集，成功地区分了不同子集的 Pile 数据集的训练集和测试集，无任何错误的正例。

Jun, 2024

序列到序列模型的成员推断攻击：我的数据是否在您的机器翻译系统中？

研究了在 “机器学习即服务” 提供商中数据隐私问题，特别关注基于序列生成模型的会员推理攻击，提供了基于最先进的机器翻译模型的公开数据集，并报告了模型是否泄露私人信息的初步结果。

Apr, 2019

不要完成它！为高效可持续的神经代码完成系统防止无助益的代码完成

本研究旨在解决考虑计算资源和计算成本的神经代码补全系统的低效问题。我们通过提出一种早期拒绝机制以及一个基于 Transformer 的评估器来避免代码补全中的低效提示，显著减少了计算成本并提高了补全的准确性。

Sep, 2022

大脑细胞读了你的书吗？针对大型语言模型的文档级成员推断

大型语言模型在我们日常生活中的嵌入中引起了关于它们所学习的数据集的问题，包括潜在的偏见或误导信息以及人类生成文本的版权和合理使用问题。我们引入了实际应用于大型语言模型的文件级成员推断任务，并展示了我们的方法在准确确定文档级成员方面的优越性，增加了即将改变我们生活的技术的透明度。

Oct, 2023