基于 BERT 深度学习算法的 AI 生成文本检测与分类

May, 2024

基于 BERT 深度学习算法的 AI 生成文本检测与分类

AI-Generated Text Detection and Classification Based on BERT Deep Learning Algorithm

Hao Wang, Jianwei Li, Zhengyu Li

TL;DR基于 BERT 算法的人工智能生成文本检测模型在实验中表现出高准确率和稳定性，为相关领域提供了有效的解决方案。

Abstract

ai-generated text detection plays an increasingly important role in various fields. In this study, we developed an efficient ai-generated text detection model based on the →

ai-generated text detection bert algorithm data preprocessing accuracy generalisation ability

发现论文，激发创造

基于自然语言处理和机器学习方法的检测人工智能生成的文本

自然语言处理、人工智能、AI 检测模型、BERT 架构和 AI 生成文本识别是该研究的五个关键词。

Apr, 2024

使用 BERT 和 fine-tuned RobertA 检测由 AI 生成的新闻

本研究表明，通过针对 BERT 和 RobertA 模型进行微调，在检测 AI 生成的新闻中取得了最好的效果。Roberta 模型的得分为 98％，精度表现卓越，研究结论表明，神经网络可用于识别 ChatGPT 生成的虚假新闻，并表明这些模型在对抗错误信息方面能够发挥重要作用。

Jun, 2023

增强文本真实性：一种新颖的混合方法用于 AI 生成文本检测

本文提出了一种新颖的混合方法，将传统的 TF-IDF 技术与先进的机器学习模型相结合，包括贝叶斯分类器、随机梯度下降（SGD）、分类梯度提升（CatBoost）和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上进行广泛的实验，我们证明了我们提出的方法在准确区分人工生成和 AI 生成文本方面的有效性。与现有方法相比，我们的方法取得了更好的性能。这项研究为 AI 生成文本检测技术的进展做出了贡献，并为应对 AI 生成内容带来的挑战开发出稳健的解决方案奠定了基础。

Jun, 2024

基于 Transformer 的大型语言模型的 AI 内容自检测

本文介绍了直接来源检测的概念，并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明，Google 的 Bard 模型表现出最大的自检测能力，准确率达到 94％，其次是 OpenAI 的 ChatGPT，准确率为 83％。而 Anthropic 的 Claude 模型似乎无法自检测。

Dec, 2023

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

基于 Transformer 深度学习算法的大型语言模型（LLM）AI 文本生成检测

通过基于 Transformer 模型的 LLM AI 文本生成检测工具，提高 AI 文本生成检测的准确性并为后续研究提供参考；通过深度学习模型的训练和验证，表明该模型对 AI 生成文本具有良好的检测和分类能力，并具有广泛应用前景。

Apr, 2024

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

多种培训策略的人工文本检测

本篇研究提出了针对 2022 年俄罗斯人工文本检测对话共享挑战赛（RuATD 2022）的一种解决方案，即使用 DeBERTa 预训练语言模型和多种训练策略区分生成该文本的模型。在 RuATD 数据集上进行的广泛实验验证了我们所提出的方法的有效性，并且我们的提交在 RuATD 2022（多分类）的评估阶段中排名第二。

Dec, 2022

追踪文本起源的 RoBERTa-BiLSTM 方法: Mast Kalandar 在 SemEval-2024 任务 8 中探测生成的 AI 文本

本文提出了一种基于 RoBERTa-BiLSTM 的分类器，用于将文本分为两个类别：人工智能生成或人类生成，并与基准方法进行了兼容研究以评估其有效性，从而促进了自动文本检测系统在解决机器生成文本滥用方面的发展。其中，我们的架构在 125 个参赛者中以 80.83% 的准确率排名第 46 名。

Jul, 2024

大型语言模型生成科学内容的深度学习检测方法

聊天 GPT 生成科技文本检测方法 AI-Catcher 融合 MLP 和 CNN 模型，通过对语言和统计特征进行特性学习以及从文本内容中提取顺序模式的高级表示，能更准确地区分人类撰写和 GPT 生成的科技文本，平均提高 37.4% 的准确性。

Feb, 2024