改述检测:人类与机器内容
本文回顾传统和现有的改进的改写识别方法,提出了改写的一种新分类体系。探究了这种类型在流行的数据集中的表现形式以及一些类型改写的不充分表示如何影响改写识别能力,最后提出了更有效地使用 AI 进行改写检测的未来研究方向和数据集。
Dec, 2022
本文探讨了使用 T5 和 GPT-3 模型在 arXiv、学生论文和 Wikipedia 上生成机器的译文,并评估了六种自动化解决方案和一种商业剽窃检测软件的检测性能。结果表明,GPT-3 生成的译文质量可以与原始文本一样,而且难以区分真假,最佳检测模型 (GPT-3) 的 F1 分数达到 66%。
Oct, 2022
本研究针对学术环境中使用人工智能生成文本的潜在风险进行研究,发现现有的人工智能生成文本检测工具准确性和可靠性都有问题,并且在检测时存在偏向于将 AI 生成文本归类为人类写作。同时,内容混淆技术也会显著降低检测工具的性能。
Jun, 2023
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023
基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器(GPT)的文本评估模型之间的差异,发现转换器预训练语言模型(PLM)相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量,但相对于人工创作的文档,GPT 生成的文本评分平均要高出 10-15%。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。
Sep, 2023
比较了八种传统机器学习算法来区分机器生成数据和人类生成数据,结果表明传统方法在识别机器生成数据方面具有较高准确度。机器生成的文本相比人类生成的内容更短且词汇较少,而特定领域相关关键词可能导致这种高准确度,通过 word2vec 等深层次词表示可以捕捉微妙的语义差异。同时,可读性、偏见、道德和情感对比显示出机器生成内容与人类生成内容的明显差异,研究为机器生成内容在各个领域的进展能力和挑战提供了有价值的见解。
Mar, 2024
通过对三种不同方法进行深入评估,即传统的浅层学习、语言模型(LM)微调和多语言模型微调,本文对文本生成的重要性有了显著进展,尤其是在区分人类和机器生成文本方面,结果表明这些方法在性能上存在显著差异,强调了在自然语言处理领域中继续推进的重要性,为未来创造强大且具有高度辨别力的模型铺平了道路。
Nov, 2023
通过引入一个新的系统 T5LLMCipher,结合预训练的 T5 编码器和 LLM 嵌入子聚类,我们在 9 个不同生成器和领域中评估了我们的方法,并发现与现有方法相比,我们的方法在看不见的生成器和领域中对机器生成的文本的 F1 得分平均提高了 19.6%,正确属性文本的生成器的准确率达到 93.6%。
Jan, 2024
我们的研究旨在探索传统和新的特征,以便 (1) 检测 AI 生成的文本和 (2) 由 AI 改写的文本。结果显示,新特征显著提高了许多分类器的性能。我们最好的基本文本改写检测系统在 F1 分数上超过了 GPTZero 的 183.8%。
Aug, 2023