- ACLAI 生成文本检测器对抗扰动的鲁棒性研究
本文研究了现有的 AI 生成文本检测方法的鲁棒性,并介绍了一种新的检测器 ——Siamese Calibrated Reconstruction Network(SCRN)。SCRN 采用重构网络来添加和去除文本中的噪声,从而提取出对局部扰 - 增强文本真实性:一种新颖的混合方法用于 AI 生成文本检测
本文提出了一种新颖的混合方法,将传统的 TF-IDF 技术与先进的机器学习模型相结合,包括贝叶斯分类器、随机梯度下降(SGD)、分类梯度提升(CatBoost)和 12 个 Deberta-v3-large 模型的实例。通过在全面的数据集上 - 谁撰写评论,人类还是人工智能?
本研究提出了一种方法来准确区分 AI 生成和人工撰写的书评,通过使用迁移学习,该方法能够在不同主题上识别生成的文本,并提高对写作风格和词汇变化的检测能力。实验结果表明,能够检测文本的原始来源,达到了 96.86% 的准确率。为了确保人工生成 - EAGLE: 一个面向人工智能生成文本检测的领域泛化框架
通过结合自我监督对抗训练和域泛化的特征学习方法,提出了一个领域泛化框架 EAGLE,可以在未知目标生成器中检测到人工智能生成的文本,包括最新的 GPT-4 和 Claude,检测得分与完全监督的检测器相差不超过 4.7%。
- AI 笔的解密:检测 AI 生成文本的技术和挑战
大型语言模型(LLMs)在自然语言生成(NLG)领域引发了一场革命,展示出生成类似人类文本的惊人能力。然而,它们的广泛使用引入了挑战,必须经过深入研究、伦理审查和负责任的实践来加以解决。本研究深入探讨了这些挑战,探索了现有的缓解策略,尤其强 - AI 生成文本鉴定系统综述:检测、归因和描述
本文回顾了 AI 生成文本法医学系统的现有研究工作,通过引入细致的分类体系,重点讨论检测、归因和表征三个主要方面,以实现对 AI 生成文本的实际理解,并探讨了在 AI 时代中法医系统的进展挑战和未来发展方向。
- 大型语言模型的多比特无失真水印技术
扩展了一种零比特的无失真水印方法,将多位元的元信息作为水印的一部分嵌入,并开发了一个计算效率高且具有低比特误码率的解码器来提取水印中的嵌入信息。
- ICLRRaidar: 基于生成式人工智能的检测重写
我们发现,在重新编写任务中,大型语言模型(LLMs)更有可能修改人类撰写的文本,而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高,从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计 - 英法德西语人工智能与人类生成文本分类
本文分析了用于英语、法语、德语和西班牙语识别人工智能生成文本和人类生成文本的特征,并对不同语言进行了比较。研究了两种情况:(1) 检测由人工智能生成的原创文本,和 (2) 检测由人工智能重新表述的文本。通过建立包含每种语言 10 个主题的新 - 评估混合深度学习模型在区分人工智能生成文本上的功效
利用切割边缘的混合深度学习模型,通过精心选择的包含 AI 和人类文本的数据集,在各种来源的指导下进行准确区分,结合先进的自然语言处理技术进行特征分析,使得该定制模型能够检测 AI 和人类内容之间微妙的差异。
- 探讨 AI 生成文本检测的可能性与不可能性:一项调查
通过综述当前研究的展望和限制,本文对大型语言模型的滥用、人工智能生成文本的检测框架以及相关的开放问题进行了全面的讨论和概述。
- 社交媒体 AI 检测基准评估
社交媒体 AI 检测(SAID)是一个用于评估实际社交媒体平台上 AI 文本检测模型能力的新基准,该研究表明标注者可以通过 96.5% 的平均准确率区分 AI 生成文本和人工生成文本,为今天广泛受 AI 影响的环境下重新评估人类识别 AI - EMNLPAI 生成文本检测器的可靠性评估框架:基于迂回软提示
通过设计一种新的方法,我们评估了高性能检测器可靠性,该方法使用了通用的躲避型软提示,通过多个预训练语言模型的写作任务进行广泛实验,以评估这些躲避型软提示对最先进检测器的躲避效果。
- ACLConDA: 基於對比學習的 AI 生成文本檢測的域適應
利用对比性领域自适应框架 ConDA,本研究解决了在检测人工智能生成的新闻文本中未标注文本数据的问题,并取得了平均性能提升 31.7%,与完全监督的检测器相差不到 0.8%的结果。
- ACLJ-Guard: 以新闻引导的对抗鲁棒性检测人工智能生成的新闻
AI 生成的新闻是网络上的重要的误信息来源,此研究开发了一个名为 J-Guard 的框架,通过应用独特的新闻特征来有效区分真实的新闻和 AI 生成的新闻,并在面对对抗性攻击时只有 7%的性能下降。
- 模仿游戏:在大型语言模型时代检测人类和 AI 生成的文本
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
- AI 自动生成文本的可证明鲁棒水印
为了解决检测人工智能生成文本的问题,本研究提出了一种鲁棒且高质量的方案,名为 GPTWatermark,通过水印的方式确定文本的来源,并在大规模语言模型中展示了其稳定性和高检测准确性。
- 语言模型的不可检测水印
本文章研究如何对大型语言模型进行不可检测的数字水印嵌入,采用密码学中的单向函数进行构建,使得即使用户能够适应性查询,也难以区分带水印的输出和原始模型的输出,从而保证文本质量。
- Ghostbuster: 检测由大型语言模型写就的文字鬼影
Ghostbuster 是一种用于检测人工智能生成文本的最先进系统,它不需要访问目标模型中的令牌概率,可以用于检测黑盒模型或未知模型版本的文本。与我们的模型结合使用,我们发布了三个新的以人类和 AI 生成的文本作为检测基准的数据集,Ghos - AI 生成文本能否被可靠地检测出来?
本篇研究展示了当前语言模型(LLMs)产生的文本检测器的可靠性不足,并提出了模仿攻击和伪造攻击等问题,强调了在使用 AI 生成文本时的伦理和可靠性问题。