基调之战:大学评估中检测 GPT-4 生成内容的方法研究
本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究,发现现有的人工智能生成文本检测工具准确性和可靠性都有问题,并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时,内容混淆技术也会显著降低检测工具的性能。
Jun, 2023
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
该研究调查了六种主要的生成型人工智能(GenAI)文本检测器在面对经过修改以逃避检测的机器生成内容时的效力(n=805)。结果表明,当面对被篡改的内容时,这些检测器的准确率(39.5%)会大幅下降(17.4%),而某些技术在逃避检测方面比其他技术更有效。这些结果显示,当前这些工具的准确性限制和潜在的错误指控表明它们目前不能用于确定是否存在学术诚信的违规行为,突显了教育工作者在维持包容和公平的评估实践方面面临的挑战。然而,它们在非惩罚性的使用中可能在支持学生学习和维护学术诚信方面发挥作用。这些结果强调了在学术界处理生成型人工智能所带来的挑战时需采用综合方法来促进这些新兴技术的负责和公平使用。该研究得出结论,AI 文本检测器目前的局限性要求在高等教育中对其实施采取批判性的方法,并提示了 AI 评估策略的可能替代方案。
Mar, 2024
本研究旨在创建一个多领域数据集,以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统,包括 “GPTkit”,“GPTZero”,“Originality”,“Sapling”,“Writer” 和 “Zylalab”,准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好,但原创性在各方面表现尤为出色。
Sep, 2023
本文介绍了直接来源检测的概念,并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明,Google 的 Bard 模型表现出最大的自检测能力,准确率达到 94%,其次是 OpenAI 的 ChatGPT,准确率为 83%。而 Anthropic 的 Claude 模型似乎无法自检测。
Dec, 2023
通过评估 ChatGPT 在三门课程(CS1、CS2、数据库)上的性能,研究了生成式人工智能对学习和评估的破坏性影响,其几乎完美地完成了所有初级考核,现有的检测方法对识别人工智能解决方案的成功率有所不同,教师和助教使用启发式方法区分学生代码和 AI 代码的检测准确性不足,这些观察结果强调了需要改进评估和检测方法。
Nov, 2023
本研究旨在探究智能 AI 写作机器人 ChatGPT 生成的学术论文内容的原创性,并使用两种常用的抄袭检测工具评估了 ChatGPT 生成的 50 篇论文的独创性。结果表明,ChatGPT 在许多主题上具有高度的原创性,并有潜力生成具有复杂文本输出能力的内容,而传统的抄袭检测工具不易检测到这些内容。同时,本文还讨论了 AI 技术对教育的影响和机构需要采取适当措施来缓解潜在的抄袭问题。
Feb, 2023
本研究基于 GPT-3 模型自动生成科学论文摘要,通过机器学习模型结合多种文本表示方法来辨别机器生成文本,并分析模型性能及讨论相关研究问题,旨在揭示人工智能生成文本的能力和局限性。
Apr, 2023
该研究比较了 ChatGPT 和 32 门大学课程学生的表现,发现 ChatGPT 在许多课程中的表现相当,甚至优于许多学生。此外,其使用也难以被 AI 文本分类器可靠地检测出来,并且出现了学生使用该工具和教育者将其视为抄袭的共识,这些发现为 AI 融入教育框架的政策讨论提供了指导。
May, 2023
本研究探讨了几种广泛使用的 GPT 检测器的性能,并以母语和非母语英语写作样本为例,发现这些检测器将非母语英语写作样本错误地识别为 AI 生成的内容,而将母语写作样本正确地识别,并且还证明了简单的提示策略可以减轻这种偏见并有效地规避非母语英语写作者的惩罚。我们的研究结果呼吁加强对部署 ChatGPT 内容检测器的伦理影响的广泛讨论,并警告在评估或教育背景下使用时,这些检测器可能会无意中惩罚或排除非母语英语的演讲者和作者。
Apr, 2023