使用开源代码训练大型语言模型的（滥）用

Feb, 2023

使用开源代码训练大型语言模型的（滥）用

The (ab)use of Open Source Code to Train Large Language Models

Ali Al-Kaswan, Maliheh Izadi

TL;DR本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Abstract

In recent years, large language models (LLMs) have gained significant popularity due to their ability to generate human-like text and their potential applications in various fields, such as Software Engineering. llms fo

large language models llms for code security privacy licensing

发现论文，激发创造

透过上下文学习揭示基础大型语言模型的滥用潜力

大型语言模型的开源加速应用开发、创新和科学进步，但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明，基础语言模型能够有效地解释和执行恶意指令，此漏洞无需特殊知识或训练即可被操纵，强调了对基础语言模型安全协议的紧急关注的重大风险。

Apr, 2024

大型语言模型训练数据集中的代码许可侵权初探

大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Mar, 2024

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

研究 LLM 在闭源和开源数据上的性能

大型语言模型在软件工程实践中得到广泛应用，本文使用微软的专有闭源软件数据进行研究，发现对于 C# 的性能变化很小，但对于 C++ 的性能显著降低，这种差异是由标识符的不同导致的，有时可以通过上下文学习来有效改善性能下降的问题。

Feb, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

打破沉默：使用大语言模型在软件工程中的威胁

大型语言模型在软件工程领域产生了广泛影响，但研究人员需要注意潜在的实验结果影响因素，包括封闭源模型、数据泄露以及 LLM 研究结果的可重复性等。本文提出了一套旨在解决这些问题的针对软件工程研究人员和语言模型提供者的指南，并通过现有的最佳实践和测试用例生成的实际例子来说明其影响。

Dec, 2023

大型语言模型中的记忆痕迹对于代码的影响

大语言模型在编程领域备受瞩目，然而其数据源可能面临被攻击者利用数据提取攻击进行窃取的风险，本研究对大语言模型进行了代码和自然语言两方面的对比研究并发现其对数据提取攻击存在漏洞，建议进一步研究并采取相应措施来缓解此问题。

Dec, 2023

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024