HC3 Plus: 一个语义不变的人类 ChatGPT 对比语料库

Sep, 2023

HC3 Plus: 一个语义不变的人类 ChatGPT 对比语料库

HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus

Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu

TL;DRChatGPT 的 AI 生成内容检测问题，主要集中在语义不变任务，以往的数据集忽视了这方面的任务，我们提出了一个更全面的数据集，并通过大量任务指令微调建立了更强大的检测系统，实验证明我们的检测器优于之前的最先进 RoBERTa-based 检测器。

Abstract

chatgpt has gained significant interest due to its impressive performance, but people are increasingly concerned about its potential risks, particularly around the detection of →

chatgpt ai-generated content detection semantic-invariant tasks dataset

发现论文，激发创造

ChatGPT 与人类专家的接近程度有多高？对比语料库、评估和检测

本文通过收集并比对来自不同领域的问题，得出了 Human ChatGPT Comparison Corpus (HC3) 数据集，并评估了与人类专家相比 ChatGPT 的回答特点和差异，还提出了未来 LLMs 的研究方向，最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。

Jan, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023

(聊) GPT 对 BERT 的语义变化检测之战的黎明

这篇研究论文探讨了自然语言处理领域中基于 Transformer 的语言模型，如 BERT 和 ChatGPT，在解决词义变化的时间问题方面的能力，对比了它们在两种 Word-in-Context 任务的历时扩展中（TempoWiC 和 HistoWiC）的表现，分析了 ChatGPT 相对于 BERT 的潜力，结果显示 ChatGPT 在研究词义变化方面表现较差。

Jan, 2024

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

ChatGPT 和 Fine-tuned BERT 的比较研究

本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力，并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现，ChatGPT 在处理释义和相似性任务方面存在不足，但在推理任务方面优于所有 BERT 模型，并在情感分析和问答任务上表现与 BERT 相当。此外，通过组合一些高级提示策略，我们展示了 ChatGPT 的理解能力可以进一步提高。

Feb, 2023

探索基于 ChatGPT 的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了 ChatGPT 生成的摘要与人类参考的差异，并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT：关于其在普适软件工程任务中效用的研究

本研究使用 ChatGPT 这一语言模型探讨了如何利用其在软件工程中辅助完成常见任务，研究结果显示 ChatGPT 对许多任务均有不错的表现，但仍存在一些任务不适用。

May, 2023

关于基于训练的 ChatGPT 检测方法的泛化性

ChatGPT 是最流行的语言模型之一，在各种自然语言任务上表现出色。本研究的目的是全面调查这些方法在分布偏移下的泛化行为，包括提示、文本长度、主题和语言任务，从而为 ChatGPT 检测的未来方法或数据收集策略的开发提供指导。

Oct, 2023

以火攻火：ChatGPT 能否检测生成的人工智能文本？

研究中探讨了 ChatGPT 作为 AI 生成文本检测器的性能，通过评估它在人工编写与 AI 生成文本检测任务上的零样本表现，并对公开可用的数据集进行实验。结果发现 ChatGPT 以及类似的大型语言模型可在自动化检测流程中发挥作用，通过专注于解决问题的一个特定方面并从该解决方案派生出其他方面的解决方案。

Aug, 2023