对对抗文体学实验的再现与复制

Aug, 2022

Reproduction and Replication of an Adversarial Stylometry Experiment

Haining Wang, Patrick Juola, Allen Riddell

TL;DR该研究旨在探讨防止作者识别的方法，在复制一个初步研究中的实验条件和结果时，验证了完全自动的转换方法可能会降低已有的作者识别方法的有效性。

Abstract

Maintaining anonymity while communicating using natural language remains a challenge. Standard authorship attribution techniques that analyze candidate authors' writing styles achieve uncomfortably high accuracy

anonymity authorship attribution adversarial stylometry replication round-trip translation

发现论文，激发创造

野外环境中的对抗文体学：可转移的词汇替换攻击在作者画像中的应用

我们的研究提出了几个组件，以便于在野外部署对抗性攻击以攻击自动推断潜在敏感作者信息的模型，并且介绍了基于 Transformer 扩展的词汇替换攻击，证明了其在训练弱标记语料库数据时能够实现高传递性，使目标模型的性能降低到低于随机 chance 水平。我们成功的攻击虽然不完全不可察觉，但也比人类需要更少的检测。因此，我们的框架为未来进行隐私保护的对抗性攻击提供了一个具有实用前景的方向。

Jan, 2021

复仇者联盟！提高作者混淆的可迁移性

本文研究了基于样式测量方法的作者归属问题，提出了一种基于集成学习的自动化作者混淆方法，并证明它的迁移性更佳。

Sep, 2021

作者身份表达学习能捕捉到文体特征吗？

自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Aug, 2023

多作者文档的文体分析和作者风格变化检测

本文研究了基于文体分析技术的三项主要任务：单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架，本文提出了一种解决方案，并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明，在基准数据集上，对于所有三个任务，本文的解决方案相比现有解决方案取得了显著的改进。

Jan, 2024

一个女孩有一个名字：检测作者身份的混淆

评估了最先进的作者混淆方法的隐蔽性，并发现它们缺乏隐蔽性，因为它们以可检测的方式降低了文本平滑度。这凸显了开发更能保护寻求匿名性作者身份的隐蔽作者混淆方法的必要性。

May, 2020

SHIELD: 阻止代码署名归属

本文介绍了 SHIELD，对六种当前最先进的作者归属方法进行攻击后的实验，通过在 Google Code Jam 竞赛中利用 200 个编程者数据集，从非有目标攻击和有目标攻击两个方向对不同的代码归属提取技术进行了实验，发现现有的作者归属方法对抗攻击的脆弱性，并对攻击成功率和身份识别信任度的影响进行了分析。

Apr, 2023

使用文体学技术检测机器生成的假新闻的限制

本文讨论了神经语言模型与人工写作之间的风格差异，发现传统风格测量技术不能有效地检测机器生成的虚假新闻。作者提出了构建新型检测机制的必要性与重要性。

Aug, 2019

使用对抗学习进行源代码的误导性作者归属

本文介绍了一种针对源代码作者归属的新型攻击方法，通过一系列基于蒙特卡洛树的语义保持的代码转换，可以误导基于机器学习的代码归属分析，并对两种最新的归属方法的准确率造成了巨大的影响，表明当前的代码作者归属方法不适用于实际应用，需要更加强大的技术。

May, 2019

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

一个女孩有一个名字，它是... 对抗性作者归属破解

对作者省略的问题提出了对抗性威胁的解决方案，该方案通过对抗式训练，在考虑到对抗训练的情况下提高了作者认证方法的鲁棒性。

Mar, 2022