本文提出了各种自动检测方法来提取科学论文中的所谓被扭曲的短语。这些被扭曲的短语,例如信号噪声代替信号噪声,是为了逃避抄袭检测而使用的释义工具的结果。我们构建了一个数据集,并评估了几种策略来标记以前未记录的被扭曲的短语。所提出和测试的方法基于语言模型,要么基于嵌入相似性,要么基于掩码标记的预测。我们发现,使用标记预测的方法,并将评分传播到块级别可以获得最佳结果。具有 0.87 的召回值和 0.61 的精确值,它可以检索到要提交给领域专家验证的新的被扭曲的短语。
Feb, 2024
该研究通过检测期刊论文的摘要以及逐一分析可疑论文的写作方式、参考文献及图片来源,指出专业术语的替代词,以及用于填充论文的修改文本存在的问题,呼吁深入剖析人工智能生成的学术论文,并强调它对科学文献完整性的威胁。
Jul, 2021
本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有效。
Mar, 2023
本研究提出两个数据集,一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集,评估数据集的质量,难度以及分类模型的区分能力。
Feb, 2022
本文研究证明基于 Transformer 的服务条款分析系统容易受到对抗攻击,微小的文本扰动可以显著降低检测性能。此外,人类评估研究表明触发器的自然性对欺骗读者至关重要。
Nov, 2022
该研究提出了对机器生成文本进行检测的方法,通过标记不同种类的技术使用,提高了模型的泛化性能,为科学领域的手稿审查提供了一种更加灵活的方式,但现有数据仍然有限,仍需进一步研究。
Sep, 2022
通过语义相似的生成物和检测算法,该研究提出了一种简单的防御,以增加对 AI 生成文本的检测器对抗改写攻击的鲁棒性。
本文提出了一种基于对抗样例的攻击方法,针对 Google 和 Jigsaw 的机器学习项目 Perspective 中的有害语言检测系统,通过对高毒性短语的微小修改降低系统对其的有害等级,揭示了这类攻击方法的危害性和有害检测系统的可靠性问题。
Feb, 2017
我们提出了一种方法,可以确定给定文章是完全由生成式语言模型编写还是在不同作者(可能是人类)的情况下经过了一些重大编辑。我们的方法涉及多个感到困惑的测试来判断单个句子或其他文本单元的来源,并使用 Higher Criticism 方法结合这些多个测试。该方法通过接近对数困惑度与交叉熵率的收敛以及针对编辑文本的统计模型,表明大部分句子都是由语言模型生成的,但也可能有一些句子是通过不同的机制产生的。我们通过使用真实数据展示了我们方法的有效性,并分析了影响其成功的因素。这项分析提出了一些有趣的未解决问题,解决这些问题可能会提高该方法的效果。
Aug, 2023
通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
Jun, 2021