评估来自 Stack Overflow 的隐私问题: ChatGPT 能否胜任?
通过对 517 个 Stack Overflow 问题的 ChatGPT 答案的细致分析,以及大规模的语言学分析和用户研究,我们发现 ChatGPT 答案中 52% 的答案是错误的,77% 的答案冗长。尽管如此,由于其全面性和清晰的语言风格,ChatGPT 答案仍然有 39.34% 的受欢迎程度。
Aug, 2023
我们在这篇论文中调查了 ChatGPT 在七个自然语言处理任务领域的真实性能水平,回顾了 ChatGPT 的社会影响和安全问题,并强调了其评估中的关键挑战和机遇。我们希望我们的调查能够揭示 ChatGPT 的黑盒特性,以免研究人员被其表面生成所误导。
Apr, 2024
将 ChatGPT 生成的代码与 StackOverflow 的代码进行比较,发现 ChatGPT 生成的代码存在较少的漏洞和较少的常见弱点枚举类型,结果表明开发人员对于两个平台的代码传播存在不安全的认识,需要采取良好的软件工程实践来降低风险。
Mar, 2024
ChatGPT 对安全导向的程序分析的能力进行了研究,从攻击者和安全分析师的角度出发,通过引入挑战性任务评估 ChatGPT 的回答质量,以更清楚地了解其在安全导向的程序分析领域的优势和限制。
Jul, 2023
本研究通过分析 Stack Overflow 上的活动,研究了 ChatGPT 的发布对人类生成的公开数据的变化,结果显示使用 ChatGPT 回答问题的用户数量增加,同时减少了在 Stack Overflow 上的活动,这表明模型的大规模使用可能会限制未来人们和模型可以从中学习的公开数据。
Jul, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
自 2022 年 11 月发布以来,ChatGPT 在 Stack Overflow 这一开发者查询编程和软件开发问题的主要平台上引起了轩然大波。通过展示出对技术问题能够产生即刻、类似人类回复的能力,ChatGPT 在开发者社区中引发了关于在生成式人工智能时代的人驱动平台演变角色的讨论。在 ChatGPT 发布两个月后,Meta 推出了自己的大规模语言模型(LLM),名为 LLaMA,比赛正式开始。我们进行了一项实证研究,分析 Stack Overflow 上的问题,并使用这些 LLMs 来回答它们。通过这种方式,我们旨在(ii)衡量用户随时间的参与度演变;(ii)量化 LLMs 回答的可靠性及其在长期内取代 Stack Overflow 的潜力;(iii)识别和理解 LLMs 出错的原因;以及(iv)将 LLMs 进行比较。我们的实证结果是明确的:ChatGPT 和 LLaMA 挑战了人类专业知识,但在某些领域并未超越它,在用户发帖活动方面也观察到了显著的下降。此外,我们还讨论了我们的发现对于新 LLMs 的使用和开发的影响。
Feb, 2024
ChatGPT 对测试问题的回答质量以及如何检测测试问题是否可由 ChatGPT 正确回答的方法是本研究的重要问题。我们通过对 MedMCQA 数据集中的问题生成 ChatGPT 的回答,并分析了不同类型问题中 ChatGPT 回答准确度较低的情况。此外,我们还开发了一个基本的自然语言处理模型,用于在一组问题或样本考试中识别出对 ChatGPT 最容易攻击的问题。这个工具可以帮助考试制作者避免出现易受 ChatGPT 攻击的测试问题。
Feb, 2024
本文探索了 ChatGPT 在涉及完整漏洞管理过程的六项任务中的能力,并使用包含 78,445 个样本的大规模数据集对其进行了比较。结果表明 ChatGPT 在辅助漏洞管理方面具有巨大的潜力,但同时也揭示了它所遇到的困难,并为未来的研究方向提供了启示。
Nov, 2023
本文通过收集并比对来自不同领域的问题,得出了 Human ChatGPT Comparison Corpus (HC3) 数据集,并评估了与人类专家相比 ChatGPT 的回答特点和差异,还提出了未来 LLMs 的研究方向,最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。
Jan, 2023