基于 BERT 深度学习算法的 AI 生成文本检测与分类
本研究表明,通过针对 BERT 和 RobertA 模型进行微调,在检测 AI 生成的新闻中取得了最好的效果。Roberta 模型的得分为 98%,精度表现卓越,研究结论表明,神经网络可用于识别 ChatGPT 生成的虚假新闻,并表明这些模型在对抗错误信息方面能够发挥重要作用。
Jun, 2023
本文提出了一种新颖的混合方法,将传统的 TF-IDF 技术与先进的机器学习模型相结合,包括贝叶斯分类器、随机梯度下降(SGD)、分类梯度提升(CatBoost)和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验,我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比,我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献,并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。
Jun, 2024
本文介绍了直接来源检测的概念,并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明,Google 的 Bard 模型表现出最大的自检测能力,准确率达到 94%,其次是 OpenAI 的 ChatGPT,准确率为 83%。而 Anthropic 的 Claude 模型似乎无法自检测。
Dec, 2023
我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战,这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能,包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD,我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样,涵盖了各种可能性,为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估,基于研究结果,结果主要与句子的序列长度有关。
Nov, 2023
通过基于 Transformer 模型的 LLM AI 文本生成检测工具,提高 AI 文本生成检测的准确性并为后续研究提供参考;通过深度学习模型的训练和验证,表明该模型对 AI 生成文本具有良好的检测和分类能力,并具有广泛应用前景。
Apr, 2024
本研究旨在创建一个多领域数据集,以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统,包括 “GPTkit”,“GPTZero”,“Originality”,“Sapling”,“Writer” 和 “Zylalab”,准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好,但原创性在各方面表现尤为出色。
Sep, 2023
本篇研究提出了针对 2022 年俄罗斯人工文本检测对话共享挑战赛(RuATD 2022)的一种解决方案,即使用 DeBERTa 预训练语言模型和多种训练策略区分生成该文本的模型。在 RuATD 数据集上进行的广泛实验验证了我们所提出的方法的有效性,并且我们的提交在 RuATD 2022(多分类)的评估阶段中排名第二。
Dec, 2022
本文提出了一种基于 RoBERTa-BiLSTM 的分类器,用于将文本分为两个类别:人工智能生成或人类生成,并与基准方法进行了兼容研究以评估其有效性,从而促进了自动文本检测系统在解决机器生成文本滥用方面的发展。其中,我们的架构在 125 个参赛者中以 80.83% 的准确率排名第 46 名。
Jul, 2024
聊天 GPT 生成科技文本检测方法 AI-Catcher 融合 MLP 和 CNN 模型,通过对语言和统计特征进行特性学习以及从文本内容中提取顺序模式的高级表示,能更准确地区分人类撰写和 GPT 生成的科技文本,平均提高 37.4% 的准确性。
Feb, 2024