CodeCloak：评估和缓解 LLM 代码助手通过代码泄漏的方法

Apr, 2024

CodeCloak：评估和缓解 LLM 代码助手通过代码泄漏的方法

CodeCloak: A Method for Evaluating and Mitigating Code Leakage by LLM Code Assistants

Amit Finkman, Eden Bar-Kochva, Avishag Shapira, Dudu Mimran, Yuval Elovici...

TL;DR使用基于 LLM 的代码助手在开发者中越来越受欢迎，本研究提出了两种互补方法以减轻在使用 LLM-based 代码助手时代码泄露的风险。一种方法是通过分析开发者在开发过程中发送给代码助手的代码段（即提示）来重构开发者的原始代码库，以评估泄露给第三方（或敌对方）的程度。另一种方法是 CodeCloak，一种新颖的深度强化学习代理程序，在发送给代码助手服务之前操纵提示。CodeCloak 的目标是要同时实现两个矛盾的目标：（一）最小化代码泄露，同时（二）保留开发者相关和有用的建议。我们通过使用 GitHub Copilot、StarCoder 和 CodeLlama LLM-based 代码助手模型对多种不同规模的代码库进行了评估，证明了我们的 CodeCloak 方法的有效性，并展示其在不同模型之间的可转移性。此外，我们生成了一个真实的模拟编码环境，以对开发实际场景下的代码泄露风险进行全面分析，并评估我们提出的缓解技术的有效性。

Abstract

llm-based code assistants are becoming increasingly popular among developers. These tools help developers improve their coding efficiency and reduce errors by providing real-time suggestions based on the developer's codebase. While beneficial, these tools might inadvertently expose the

llm-based code assistants code leakage prompts codecloak risk mitigation

发现论文，激发创造

利用增强学习和语义奖励的 LLM 驱动代码漏洞修复

我们引入了一种多用途的代码漏洞分析系统 SecRepair，由一个大型语言模型 CodeGen2 提供支持，帮助开发人员识别和生成修复后的代码，并附带一个完整的漏洞描述和代码评论。我们的创新方法利用增强学习范式来生成由语义奖励机制增强的代码评论。研究结果强调，将增强学习与语义奖励结合起来，提高了模型在处理代码漏洞方面的能力和效果。

Jan, 2024

Copilot 评估系统：评估 LLM 指导的软件编程

利用 Large Language Models（LLMs）提高开发人员在开发环境（IDEs）中的生产力是现代软件开发的重点。本文介绍了 Copilot 评估工具，用于评估 LLM 引导的 IDE 交互，在不同编程场景和语言中提供了更稳健和信息丰富的评估指标。通过这些指标，我们评估了三种常见 LLMs 的性能，为未来的 LLM 引导 IDE 场景的开发和验证提供了经验教训。

Feb, 2024

通过廉价高效的提示工程提升 GitHub Copilot 的基于 AI 的代码合成安全性

提出并评估了三种 Prompt 修改方法，并在实际场景中使用 OpenVPN 项目对 GitHub Copilot 的有效性进行了评估，结果表明这些方法可减少不安全的生成代码样本的数量高达 16％，增加安全代码的数量高达 8％。

Mar, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

Xcode 的协助助手：利用云端大型语言模型提供 AI 辅助编程

这篇论文介绍了一种名为 Copilot for Xcode 的 AI 辅助编程工具，通过将云端的大型语言模型与苹果的本地开发环境 Xcode 无缝集成，提高了软件开发者的生产力，释放了创造力，支持苹果软件生态系统中的软件开发。它利用先进的自然语言处理技术，有效处理代码库中的源代码令牌和模式，实现代码生成、自动完成、文档编制和错误检测等功能。软件开发者还可以通过 Copilot for Xcode 的聊天界面查询和进行 “小型” 程序组合的决策，其中一些决策可以同时进行。最后，我们通过简单的案例研究展示了在 Xcode 中利用 NLP 来促进流行的大型语言模型服务如 OpenAI ChatGPT 进行程序组合和设计的有效性。

Jul, 2023

CodeChameleon：为大型语言模型破解定制的加密框架

通过引入个性化加密策略的新型越狱框架 CodeChameleon，本研究研究了对大型语言模型（LLMs）的安全和伦理协议进行绕过的敌对滥用，提出了基于意图安全识别和响应生成的安全机制假设。我们通过将任务转化为代码完成格式，使用户能够使用个性化加密函数对查询进行加密，以避开意图安全识别阶段。为保证响应生成功能，我们在指令中嵌入了一个解密函数，允许 LLM 成功解密和执行加密的查询。在 7 个 LLM 上进行了广泛的实验，取得了最先进的平均攻击成功率（ASR），其中在 GPT-4-1106 上达到了 86.6％的 ASR。

Feb, 2024

用于提高 LLMs 代码可靠性的目标验证问题链

通过自我完善方法，在没有人工介入和测试用例的情况下，通过针对初始代码中的特定节点使用目标验证问题（VQs），提高 LLM 生成代码的可靠性，并通过针对特定的 VQs 和初始代码重新提示 LLM 来修复潜在的漏洞。评估结果表明，我们的方法优于现有方法，减少了代码中目标错误的数量达到 21% 至 62%，同时提高了可执行代码实例的数量达到 13%。

May, 2024

利用大型语言模型增强自动化代码漏洞修复

研究致力于自动修复代码漏洞的复杂挑战，引入了一种新的代码修改表示格式，使用了先进的大型语言模型（如 Code Llama 和 Mistral）。这些模型在 C 代码漏洞数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标（如完美预测）进行了关键评估，并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上，而且推动了这些关键领域的进一步探索与研究。

Jan, 2024

CoProtector: 用数据污染保护开源代码免受未经授权的训练使用

本文提出了一种名为 CoProtector 的数据 Poisoning 技术，通过给源代码库武装来防御深度学习模型对开放源代码的滥用，实验证明 CoProtector 能有效实现其目的，显著降低了类 Copilot 的深度学习模型的性能，并能稳定地揭示被嵌入的秘密水印后门。

Oct, 2021

LLMs 存储库级提示综述

这篇综述研究了大型语言模型在编码生成任务中的有效提示方法，探讨了从个别编码问题到仓库规模解决方案的转变，旨在推进开发者生产力，为商业应用场景提供有用且适用的黑盒语言模型方法，并介绍了基于仓库级提示生成技术与 RepoCoder 的迭代检索与生成方法之间的权衡，以确立最佳实践，为尖端编码基准提供改进路径。

Dec, 2023