发现代码生成中偏差的简单而有效方法
本研究提出了一个基于GPT-3.5的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试oracle或参考文献的情况下,达到比CodeBERTScore更高的准确性和一致性。
Apr, 2023
该研究探讨了大型语言模型在编程问题中的应用,发现最新技术如InstructGPT和ChatGPT在处理指令时表现优异,而早期使用变量名如Codex的模型的性能受描述问题时表浅的指标较大影响。
Jun, 2023
基于最新的大型语言模型 (LLMs) ,本研究提出了一个面向代码生成任务的新型偏差评估框架,并对九种最先进的 LLM-based 代码生成模型进行了广泛评估。研究发现,我们评估的代码生成模型中有 31.45% 到 79.93% 的代码函数存在偏差,其中 9.68% 到 37.37% 的代码函数受到偏差的影响,这意味着不仅代码生成模型存在偏差,而且在某些情况下,偏差直接影响生成代码的功能,存在无意和可能有害的软件行为风险。为了减轻代码生成模型的偏差,我们提出了三种缓解策略,可以将偏差代码比例降低到非常低的水平,即 0.4% 到 4.57%。
Sep, 2023
基于因果分析的方法用于系统地分析大语言模型(LLMs)输入提示与生成代码之间的因果关系,研究结果展示了该技术在提供LLMs有效性方面的潜力,并帮助最终用户理解预测,同时提供改进LLMs生成代码质量的可操作见解。
Oct, 2023
ChatGPT是一种显著的大型语言模型,通过与人类程序员进行比较,本文提出了对其代码生成能力的综合评估。通过构建一个包含5个类别的新颖数据集,共计131个代码生成提示,ChatGPT和人类程序员生成了262个代码样例。使用14个已建立的代码质量度量方法进行详细的手动评估,重点评估了正确性、可理解性和安全性。关键发现揭示了ChatGPT在制作简洁高效、具有高级结构的代码方面的优势,并展示了在数据分析任务(93.1%准确度)中的强项,但在视觉图形方面存在局限性。与人类代码的比较分析凸显了ChatGPT对模块化设计和优秀的错误处理的倾向。此外,机器学习模型可以有效地区分ChatGPT和人类代码,准确率高达88%,表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了ChatGPT的代码生成能力和局限性,为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此https URL上找到。
Nov, 2023
本研究对Python代码生成的两个广泛应用的基准测试——HumanEval和MBPP进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。
Jan, 2024
该研究综合研究了大型语言模型在代码生成任务中的数据污染问题,分析了常见代码生成基准测试与预训练语料之间的重叠程度,并揭示了类似训练解决方案出现时模型性能显著提高的现象,同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。
Mar, 2024
通过新的基准测试DevEval,我们评估了8种流行的大型语言模型在真实代码库中的编码能力,并发现这些模型的编码能力在真实世界的代码库中存在缺陷。
May, 2024
使用大型语言模型进行代码生成的能力仍具有一定限制,代码生成的结果通常较为复杂且存在错误,通过研究相关的问题和推导出的漏洞类型,提出了一个训练自由的迭代方法来减少错误并增加合格率。
Jul, 2024
本文研究了大语言模型(LLMs)在代码生成中可能产生错误程序的问题,并提出了HonestCoder,这是一种基于LLMs的代码生成方法,能够根据模型的信心选择性地向开发者展示生成的程序。实验表明,HonestCoder在预测程序正确性方面表现优越,显著减少了展示给开发者的错误程序数量,从而降低了安全风险并提高了开发效率。
Oct, 2024