ChatGPT 代码检测：揭示代码来源的技术

May, 2024

ChatGPT 代码检测：揭示代码来源的技术

ChatGPT Code Detection: Techniques for Uncovering the Source of Code

Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen

TL;DR研究论文通过使用先进的分类技术来区分由人写的代码和由 ChatGPT 生成的代码，探讨了大型语言模型在代码生成中的影响，特别是在高等教育领域的潜在风险和对策。

Abstract

In recent times, large language models (LLMs) have made significant strides in generating computer code, blurring the lines between code created by humans and code produced by artificial intelligence (AI). As these technologies evolve rapidly, it is crucial to explore how they influenc

large language models code generation chatgpt classification techniques ai in code generation

发现论文，激发创造

ChatGPT 对源代码的分析

本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成，研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用，并指出它们在编程社区中的使用有望得到进一步推广。

Jun, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

评估 AI 检测器在识别 AI 生成代码中的应用：对教育的影响

研究聚焦于大型语言模型在编程教育中的应用，特别关注人工智能生成内容检测器在学术不端中的潜在漏洞，并通过生成代码来检验大型语言模型对于绕过检测的努力。研究结果表明现有的人工智能生成内容检测器在区别人工编写的代码和人工智能生成的代码方面表现不佳。

Jan, 2024

利用机器学习区分人类生成文本和 ChatGPT 生成的文本

本研究提出了一种基于机器学习的解决方案，可以识别 ChatGPT 生成的文本，并在分类过程中比较分析了共 11 种机器学习和深度学习算法。在 Kaggle 数据集上测试，该算法在由 GPT-3.5 生成的语料库上表现出 77% 的准确率。

May, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

使用现成的机器学习工具，以超过 99% 的准确率区分作者身份：ChatGPT 还是学术科学家？

通过监督分类的方法，我们开发了一种方法来辨别人工智能生成的文本和学术科学家的文本，其中包含 20 个特征，最终建立了一个模型准确地判断了文本的作者，使得误分类文档的数量减少至原来的 1/20。

Mar, 2023

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

评估 ChatGPT 在自动代码生成中的优势和局限性

ChatGPT 是一种显著的大型语言模型，通过与人类程序员进行比较，本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集，共计 131 个代码生成提示，ChatGPT 和人类程序员生成了 262 个代码样例。使用 14 个已建立的代码质量度量方法进行详细的手动评估，重点评估了正确性、可理解性和安全性。关键发现揭示了 ChatGPT 在制作简洁高效、具有高级结构的代码方面的优势，并展示了在数据分析任务（93.1% 准确度）中的强项，但在视觉图形方面存在局限性。与人类代码的比较分析凸显了 ChatGPT 对模块化设计和优秀的错误处理的倾向。此外，机器学习模型可以有效地区分 ChatGPT 和人类代码，准确率高达 88%，表明可以检测到的编码风格差异。通过量化指标和定性分析深入探讨了 ChatGPT 的代码生成能力和局限性，为推进基于人工智能的编程助手提供了宝贵的见解。精心策划的数据集和方法为这个新兴领域的未来研究提供了坚实的基础。所有数据和代码都可在此 https URL 上找到。

Nov, 2023

揭示巨人真面目：ChatGPT 在编写算法和数据结构方面的全面评估

本文对 ChatGPT 的编码能力进行全面评估，重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现，包括解决问题的能力、代码质量和运行时错误性质，探究了其对训练数据的直接记忆现象，并在各个子主题和难度不等的问题上与人类表现进行对比研究。

Jul, 2023

ChatGPT 检测：探究 ChatGPT 生成文本的现状概述

用于区分 ChatGPT 生成文本和人类生成文本的当前方法的综述，包括构建用于检测 ChatGPT 生成文本的不同数据集，采用的各种方法，对人类与 ChatGPT 生成文本特征的定性分析，并最终总结研究结果为一般性见解。

Sep, 2023