主题混淆任务：一种新的作者归属场景

EMNLPApr, 2021

主题混淆任务：一种新的作者归属场景

The Topic Confusion Task: A Novel Scenario for Authorship Attribution

Malik H. Altakrori, Jackie Chi Kit Cheung, Benjamin C. M. Fung

TL;DR在这篇论文中，我们提出了一个任务：主题混淆，用于区分写作风格捕捉能力不足还是主题转换造成的错误，我们表明带有词性标注的文体特征对主题变化最不敏感，将它们与其他特征相结合可显著降低主题混淆并提高归属准确性，最后表明像 BERT 和 RoBERTa 等预训练语言模型在这项任务中表现不佳，远不如诸如单词级 n 元语法等简单特征。

Abstract

authorship attribution is the problem of identifying the most plausible author of an anonymous text from a set of candidate authors. Researchers have investigated same-topic and cross-topic scenarios of authorship attri

authorship attribution writing styles topic confusion stylometric features pretrained language models

发现论文，激发创造

寻凶？学习对比进行作者归属度量

本论文提出了一种新方法 —— 使用对比学习在预训练语言模型的基础上微调特定作者的表征，以提高文本作者鉴定的准确性，该方法将最新的研究前沿提高至多 6.8％。但是，该方法的性能指标有所牺牲，需要进一步研究解决。

Sep, 2022

作者归属模型能否识别演讲记录中的讲话者？

论文通过研究转写语音来探讨作者识别的问题，重点在于解决转写语音中特有的挑战性，包括控制主题相关性和基于转写语音构建的 speaker attribution 基准测试。通过与神经网络和非神经网络模型进行对比，发现尽管书面文本的作者识别模型在某些情况下表现出令人惊讶的性能，但在考虑的最难的情景中仍然存在困难。

Nov, 2023

基于注意力相似度学习的社交媒体可解释式作者验证

本文针对社交媒体上短文本语言特征多变不足以支持作者验证的问题，提出了一种基于 Hierarchical Siamese 神经网络的算法，通过学习神经特征和可视化决策过程可以有效地进行作者验证，并在大规模的亚马逊评论数据集上进行实验，结果表明 Siamese 神经网络模型优于传统的基于语言特征的方法。

Oct, 2019

作者身份表达学习能捕捉到文体特征吗？

自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Aug, 2023

社交媒体中的作者身份验证相似性学习

提出了一种新的神经网络拓扑结构用于类似社交媒体这类挑战性数据集上，有效地提高了作者验证任务的性能。

Aug, 2019

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023

神经文本作者身份鉴定与混淆：数据挖掘视角

本文综述了从数据挖掘的角度出发，针对神经文本生成中的作者归属与模糊化问题开展的最近研究，旨在理解传统作者归属与模糊化方法的局限性并探讨新的研究方向，以解决神经文本撰写人的匿名性与隐私问题。

Oct, 2022

基于 BERT 的罗马尼亚语数据集 ROST 的作者归属

使用预训练的语言模型 BERT 来检测罗马尼亚语文本的作者，虽然数据集不平衡，但结果比预期好，有时超过 87％的宏平均精度。

Jan, 2023

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

基于网络模式识别的作者归属

利用复杂网络的概念和方法，研究关键词识别、自动提取摘要和作者归属等自然语言处理任务中的模式识别技术，提出了基于功能词重复模式的作者归属任务，运用机器学习方法对其进行验证，结果表明模式能够区分不同作者的写作风格，并推荐将其应用于其他相关的语言任务。

Jul, 2016