研究在科学文献中发现折磨性短语的检测

Oct, 2022

研究在科学文献中发现折磨性短语的检测

Investigating the detection of Tortured Phrases in Scientific Literature

Puthineath Lay, Martin Lentschat, Cyril Labbé

TL;DR本研究旨在探究如何自动检测未列出的 ' 折磨短语 '，并进行了包括非神经二元分类、神经二元分类和短语标记余弦相似度比较在内的多项实验，得到了显著的结果。

Abstract

With the help of online tools, unscrupulous authors can today generate a pseudo-scientific article and attempt to publish it. Some of these tools work by replacing or paraphrasing existing texts to produce new co

online tools pseudo-scientific article tortured phrase automatic detection neural binary classification

发现论文，激发创造

科学文献中受折磨短语的检测

本文提出了各种自动检测方法来提取科学论文中的所谓被扭曲的短语。这些被扭曲的短语，例如信号噪声代替信号噪声，是为了逃避抄袭检测而使用的释义工具的结果。我们构建了一个数据集，并评估了几种策略来标记以前未记录的被扭曲的短语。所提出和测试的方法基于语言模型，要么基于嵌入相似性，要么基于掩码标记的预测。我们发现，使用标记预测的方法，并将评分传播到块级别可以获得最佳结果。具有 0.87 的召回值和 0.61 的精确值，它可以检索到要提交给领域专家验证的新的被扭曲的短语。

Feb, 2024

酷刑的用语：科学中正在出现的一个可疑写作风格，一些受信杂志受到的重大问题的证据

该研究通过检测期刊论文的摘要以及逐一分析可疑论文的写作方式、参考文献及图片来源，指出专业术语的替代词，以及用于填充论文的修改文本存在的问题，呼吁深入剖析人工智能生成的学术论文，并强调它对科学文献完整性的威胁。

Jul, 2021

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023

学术出版物中自动生成文本检测基准语料库

本研究提出两个数据集，一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集，评估数据集的质量，难度以及分类模型的区分能力。

Feb, 2022

针对不公平 ToS 条款检测的攻击：一个使用通用对抗性触发器的案例研究

本文研究证明基于 Transformer 的服务条款分析系统容易受到对抗攻击，微小的文本扰动可以显著降低检测性能。此外，人类评估研究表明触发器的自然性对欺骗读者至关重要。

Nov, 2022

SynSciPass: 检测科学文本生成的合适用途

该研究提出了对机器生成文本进行检测的方法，通过标记不同种类的技术使用，提高了模型的泛化性能，为科学领域的手稿审查提供了一种更加灵活的方式，但现有数据仍然有限，仍需进一步研究。

Sep, 2022

改写可以躲避 AI 生成文本的检测，但究竟能否防御检索攻击？

通过语义相似的生成物和检测算法，该研究提出了一种简单的防御，以增加对 AI 生成文本的检测器对抗改写攻击的鲁棒性。

Mar, 2023

欺骗 Google 旨在检测有害评论的透视 API

本文提出了一种基于对抗样例的攻击方法，针对 Google 和 Jigsaw 的机器学习项目 Perspective 中的有害语言检测系统，通过对高毒性短语的微小修改降低系统对其的有害等级，揭示了这类攻击方法的危害性和有害检测系统的可靠性问题。

Feb, 2017

利用高阶批判方法分离人工智能生成的文字中的人为因素：一种信息论方法

我们提出了一种方法，可以确定给定文章是完全由生成式语言模型编写还是在不同作者（可能是人类）的情况下经过了一些重大编辑。我们的方法涉及多个感到困惑的测试来判断单个句子或其他文本单元的来源，并使用 Higher Criticism 方法结合这些多个测试。该方法通过接近对数困惑度与交叉熵率的收敛以及针对编辑文本的统计模型，表明大部分句子都是由语言模型生成的，但也可能有一些句子是通过不同的机制产生的。我们通过使用真实数据展示了我们方法的有效性，并分析了影响其成功的因素。这项分析提出了一些有趣的未解决问题，解决这些问题可能会提高该方法的效果。

Aug, 2023

通过对抗性改写任务提升释义检测

通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务（Adversarial Paraphrasing Task， APT），以更好地检测句级别的意义相等，从而加速数据集生成并提高同义句识别模型的性能。

Jun, 2021