对对抗文体学实验的再现与复制
我们的研究提出了几个组件,以便于在野外部署对抗性攻击以攻击自动推断潜在敏感作者信息的模型,并且介绍了基于 Transformer 扩展的词汇替换攻击,证明了其在训练弱标记语料库数据时能够实现高传递性,使目标模型的性能降低到低于随机 chance 水平。我们成功的攻击虽然不完全不可察觉,但也比人类需要更少的检测。因此,我们的框架为未来进行隐私保护的对抗性攻击提供了一个具有实用前景的方向。
Jan, 2021
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。
Aug, 2023
本文研究了基于文体分析技术的三项主要任务:单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架,本文提出了一种解决方案,并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明,在基准数据集上,对于所有三个任务,本文的解决方案相比现有解决方案取得了显著的改进。
Jan, 2024
评估了最先进的作者混淆方法的隐蔽性,并发现它们缺乏隐蔽性,因为它们以可检测的方式降低了文本平滑度。这凸显了开发更能保护寻求匿名性作者身份的隐蔽作者混淆方法的必要性。
May, 2020
本文介绍了 SHIELD,对六种当前最先进的作者归属方法进行攻击后的实验,通过在 Google Code Jam 竞赛中利用 200 个编程者数据集,从非有目标攻击和有目标攻击两个方向对不同的代码归属提取技术进行了实验,发现现有的作者归属方法对抗攻击的脆弱性,并对攻击成功率和身份识别信任度的影响进行了分析。
Apr, 2023
本文讨论了神经语言模型与人工写作之间的风格差异,发现传统风格测量技术不能有效地检测机器生成的虚假新闻。作者提出了构建新型检测机制的必要性与重要性。
Aug, 2019
本文介绍了一种针对源代码作者归属的新型攻击方法,通过一系列基于蒙特卡洛树的语义保持的代码转换,可以误导基于机器学习的代码归属分析,并对两种最新的归属方法的准确率造成了巨大的影响,表明当前的代码作者归属方法不适用于实际应用,需要更加强大的技术。
May, 2019
本文提出了一种使用神经网络方法来模拟人类组合句子过程,将语言特征的不同类别合并到单词的分布式表示中,以同时学习作者文体表示的作者分析方法,提取出每个文档的话题、词汇、句法和字符级别的特征向量,实验结果表明,这种方法在作者特征化和作者验证方面具有优异的性能。
Jun, 2016