TopRoBERTa：深伪造文本的拓扑感知作者归属

Sep, 2023

TopRoBERTa：深伪造文本的拓扑感知作者归属

TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts

Adaku Uchendu, Thai Le, Dongwon Lee

TL;DR我们提出了 TopRoBERTa 方法，通过在 RoBERTa 模型中加入拓扑数据分析（TDA）层，捕捉深度伪造文本中的更多语言模式。通过从 RoBERTa 的重塑池输出中提取 TDA 特征作为输入，我们展示了具有 TDA 层时处理嘈杂、不平衡和异构数据集的优势。最终，TopRoBERTa 在 2/3 个数据集上胜过传统的 RoBERTa，宏 F1 得分提升高达 7%。

Abstract

Recent advances in large language models (LLMs) have enabled the generation of open-ended high-quality texts, that are non-trivial to distinguish from human-written texts. We refer to such LLM-generated texts as \emph{deepfake texts}. There are currently over 11K text generation models

large language models deepfake texts authorship attribution toproberta linguistic patterns

发现论文，激发创造

通过检查注意力图的拓扑来检测人工文本

利用拓扑数据分析（TDA）提取 BERT 模型的可解释的拓扑特征，用于区分人工生成的文本和真实的文本，证明 TDA 对于包含表面和结构信息的 NLP 任务是具有前景的。

Sep, 2021

使用神经文本生成器欺骗在线作者归属模型：你是罗伯特还是罗伯塔？

本文探讨自然语言模型在生成具有被误认为是他人所写的能力的在线文本方面的潜力，发现当前的这类技术中 GPT-2 可成功地模拟与欺骗常见的作者识别的方法，说明了这类技术的巨大潜力和其实际应用如非法信息识别和犯罪取证的重要性。

Mar, 2022

BERT 与 RuCoLA: 用拓扑数据分析解释

本文研究如何应用拓扑数据分析在语言模型中识别和提取其对语言特征的表达，提出了基于拓扑数据分析的分类方法，并在 CoLA 和 RuCoLA 两个不同语言数据集上证明了该方法的优势。

Apr, 2023

基于拓扑数据分析和滑动窗口技术的人工文本边界检测

通过使用不同的方法和特征，我们提出了一种基于 RoBERTa 模型和冻结语言模型嵌入特征的新方法，能够超过人类准确度水平和先前考虑的基准，在真实或假文本基准测试上取得更好的结果，并且分析了各种设置下所有提出分类器的鲁棒性以及对人工文本边界检测算法性能的负面影响。

Nov, 2023

多种培训策略的人工文本检测

本篇研究提出了针对 2022 年俄罗斯人工文本检测对话共享挑战赛（RuATD 2022）的一种解决方案，即使用 DeBERTa 预训练语言模型和多种训练策略区分生成该文本的模型。在 RuATD 数据集上进行的广泛实验验证了我们所提出的方法的有效性，并且我们的提交在 RuATD 2022（多分类）的评估阶段中排名第二。

Dec, 2022

野外深度伪造文本检测

通过搜集人类写作和不同大型语言模型生成的假文本构建一组真实场景测验集，实验结果显示在这种情况下深伪文本检测面临着严峻挑战，尤其是面对各种领域的无来源文本时。

May, 2023

追踪文本起源的 RoBERTa-BiLSTM 方法: Mast Kalandar 在 SemEval-2024 任务 8 中探测生成的 AI 文本

本文提出了一种基于 RoBERTa-BiLSTM 的分类器，用于将文本分为两个类别：人工智能生成或人类生成，并与基准方法进行了兼容研究以评估其有效性，从而促进了自动文本检测系统在解决机器生成文本滥用方面的发展。其中，我们的架构在 125 个参赛者中以 80.83% 的准确率排名第 46 名。

Jul, 2024

使用深度学习的机器生成文本检测

我们的研究重点是辨别大型语言模型生成的文本与人类生成的文本之间的关键挑战，这在各种应用中具有重要意义。通过评估我们的模型在多个数据集上的性能，包括 Twitter 情感、足球评论、项目古腾堡文库、PubMedQA 和 SQuAD，我们提供了支持此类模型可行性的证据。这些数据集在复杂约束下进行了采样，涵盖了各种可能性，为未来研究奠定了基础。我们对 GPT-3.5-Turbo 与 SVM、RoBERTa-base 和 RoBERTa-large 等各种检测器进行了评估，基于研究结果，结果主要与句子的序列长度有关。

Nov, 2023

拓扑数据分析在语音处理中的应用

本论文介绍了一种利用拓扑数据分析法（TDA）分析语音的新方法，通过引入一系列从 Transformer 注意力映射和嵌入中得出的拓扑和代数特征，展示了建立在这些特征之上的简单线性分类器优于微调分类头的表现，并展示了拓扑特征能够揭示语音 Transformer 头的功能角色。

Nov, 2022

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023