软件审查中 ChatGPT 不正确性检测

Mar, 2024

ChatGPT Incorrectness Detection in Software Reviews

Minaoar Hossain Tanzil, Junaed Younus Khan, Gias Uddin

TL;DR通过调查 135 名软件工程师对 Generative AI-based chatbots 像 ChatGPT 在软件工程任务中的使用，我们发现他们都想将 ChatGPT 用于软件库选择等任务，但也常常担心 ChatGPT 回复的真实性。我们开发了一套技术和一个名为 CID（ChatGPT 错误检测器）的工具，通过询问环境上类似但内容上有差异的问题（使用利用文本中变形关系的方法），对 ChatGPT 的回复进行自动测试和检测不正确的回复。CID 的基本原则是对于一个给定的问题，与其他回复（在多个问题的不同表达中）不同的回复很可能是不正确的回复。在一个关于软件库选择的基准研究中，我们展示 CID 可以以 0.74 至 0.75 的 F1 分数来检测 ChatGPT 中的不正确回复。

Abstract

We conducted a survey of 135 software engineering (SE) practitioners to understand how they use generative ai-based chatbots like ChatGPT for SE tasks. We find that they want to use ChatGPT for SE tasks like software library selection but often worry about the truthfulness of

generative ai-based chatbots se practitioners software library selection chatgpt responses cid (chatgpt incorrectness detector)

发现论文，激发创造

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

ChatGPT 还是 Grammarly？评估 ChatGPT 在语法错误更正基准上的性能

本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现，通过与 Grammarly 和 GECToR 等商业和先进模型比较，发现 ChatGPT 在自动评估指标上表现较弱，但经过人工评估，发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性，这表明自动评估指标低估了 ChatGPT 工具的潜力。

Mar, 2023

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

ChatGPT：关于其在普适软件工程任务中效用的研究

本研究使用 ChatGPT 这一语言模型探讨了如何利用其在软件工程中辅助完成常见任务，研究结果显示 ChatGPT 对许多任务均有不错的表现，但仍存在一些任务不适用。

May, 2023

基于 ChatGPT 作弊的测试题漏洞研究

ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答，并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外，我们还开发了一个基本的自然语言处理模型，用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。

Feb, 2024

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

谁回答得更好？ChatGPT 和 Stack Overflow 回答软件工程问题的深度分析

通过对 517 个 Stack Overflow 问题的 ChatGPT 答案的细致分析，以及大规模的语言学分析和用户研究，我们发现 ChatGPT 答案中 52% 的答案是错误的，77% 的答案冗长。尽管如此，由于其全面性和清晰的语言风格，ChatGPT 答案仍然有 39.34% 的受欢迎程度。

Aug, 2023

ChatGPT 是专家们的杰出工具

本文探讨了 ChatGPT 在科学写作、数学、教育、编程和医疗保健等不同领域作为自动化助手的能力，重点介绍了其增强生产力、简化解决问题流程和提高写作风格的潜力以及与过度依赖 ChatGPT 可能带来的潜在风险，而作者提出了使用流程建议，对输出进行独立验证，并建议专家使用该工具。

Jun, 2023

ChatGPT 对计算机科学本科生和教师究竟是祝福还是诅咒？

本文采用定量方法，展示 ChatGPT 在回答涉及本科计算机科学课程相关主题的不同类型的问题时高度不可靠，揭示学生盲目依赖 ChatGPT 完成作业和考试可能面临自我破坏。同时提出对学生和教师的建设性建议。

Apr, 2023