使用单一问题检测 ChatGPT 冒充者:机器人还是人?
本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估,同时我们评估了其他 AI 生成的文本检测工具,以检测 ChatGPT 生成的内容。此外,我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明,现有方法都不能有效地检测 ChatGPT 生成的内容。
Apr, 2023
本文探讨了人机交互中系统设计与研究者如何允许系统确认其非人身份,研究了大量针对是否为机器人的表述与系统无法识别的内容,比较了不同分类器识别意图的效率和模型复杂度之间的权衡,提出了避免误导的虚假响应型对话系统的思路,并研究了已经投入使用的系统在确认非人身份方面的表现。最后,本文通过用户研究,总结了响应此意图所需的各个方面。
Jun, 2021
利用启发式方法,本研究发现 1,140 个通过 Twitter botnet 使用 ChatGPT 生成人类风格内容的虚假个人的密集集群,并通过人工注释验证。ChatGPT 生成的内容宣传可疑网站并传播有害评论。尽管 AI botnet 中的账户可以通过其协调模式检测到,但目前最先进的大语言模型内容分类器无法区分它们和真实用户账户。这些发现强调了 AI 助推社交机器人带来的威胁。
Jul, 2023
这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力,并与专门的模型进行对比。研究发现,专门的模型和 ChatGPT 都没有达到令人满意的结果,低于人类表现,但 ChatGPT 显示出了潜在的潜力,并经常超过专门的检测模型。最后,论文深入探讨了 ChatGPT 的主要缺点,并提出了增强 LLM 能力的未来研究的指导。
Sep, 2023
通过将 ChatGPT 暴露在具有争议性的问题上,我们旨在了解其意识水平,以及现有模型是否存在社会政治和 / 或经济偏见。同时,我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明,尽管 ChatGPT 的以前版本在争议性话题上存在重要问题,但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然保持着一定程度的对右倾意识形态的隐性倾向,这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面,除了 “哲学” 类别外,ChatGPT 在跟上人类集体知识水平方面表现良好。最后,我们发现与人类答案相比,Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。
Aug, 2023
本文研究了语言生成模型的民主化对人们与机器人互动方式以及识别机器人生成的文本方法的影响,并发现结合人类对话反馈信息的机器人生成文本识别方法更加稳健,同时对人机会话的语言统计学变化进行了分析。
Jun, 2021
在本文中,我们通过提交 60 个提问并基于三项机器翻译评分标准(BLEU,METEOR 和 ROUGE)对 ChatGPT 的回答进行了分析,结果显示出与人类典型反应相比,ChatGPT 在回复和翻译方面的能力虽然显著,但仍有所欠缺。
Feb, 2023
该研究比较了 ChatGPT 和 32 门大学课程学生的表现,发现 ChatGPT 在许多课程中的表现相当,甚至优于许多学生。此外,其使用也难以被 AI 文本分类器可靠地检测出来,并且出现了学生使用该工具和教育者将其视为抄袭的共识,这些发现为 AI 融入教育框架的政策讨论提供了指导。
May, 2023
研究论文通过使用先进的分类技术来区分由人写的代码和由 ChatGPT 生成的代码,探讨了大型语言模型在代码生成中的影响,特别是在高等教育领域的潜在风险和对策。
May, 2024
本研究使用问答形式探究网络安全问题,利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解,试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务,其能力包括自我复制、自我修改、逃避检测,以及对复杂网络安全目标的战略理解,而令人惊讶的是,在没有图像输入的情况下,ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。
Dec, 2022