透过作者分类进行文档来源和认证

Mar, 2023

透过作者分类进行文档来源和认证

Document Provenance and Authentication through Authorship Classification

Muhammad Tayyab Zamir, Muhammad Asif Ayub, Jebran Khan, Muhammad Jawad Ikram, Nasir Ahmad...

TL;DR本文提出了一个基于集成的文本处理框架，用于单作者和多作者文档的分类，并通过多种权重优化和选择方法来分配基于优点的权重，可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验，并在大规模基准数据集上进行了评估，显著提高了现有解决方案的性能。

Abstract

style analysis, which is relatively a less explored topic, enables several interesting applications. For instance, it allows authors to adjust their writing style to produce a more coherent document in collaboration. Similarly, →

style analysis text-processing machine learning transformers deep learning

发现论文，激发创造

多作者文档的文体分析和作者风格变化检测

本文研究了基于文体分析技术的三项主要任务：单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架，本文提出了一种解决方案，并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明，在基准数据集上，对于所有三个任务，本文的解决方案相比现有解决方案取得了显著的改进。

Jan, 2024

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

具有风格意识的神经模型及其在作者归属方面的应用

本文提出了一种样式感知神经模型，以从三个样式水平对文档信息进行编码，并在作者归属领域进行评估，实验结果表明，相对于文献中的基线方法，从所有三个样式水平编码文档信息具有显著的优势，实验数据来源于四个基准数据集。

Sep, 2019

作者身份表达学习能捕捉到文体特征吗？

自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Aug, 2023

使用解析语言结构的文件作者分类

使用统计自然语言解析器提取的语法结构信息进行作者鉴定的新可能性探索，通过对一组 “证据文本” 进行基于语法结构的作者分类的测试，证实了统计解析器的信息能够帮助区分作者。

Mar, 2024

提升作者识别中的表示泛化能力

通过深度学习模型，特别是包含字符 n-grams 和句法信息的模型，学习的表示方式有望提高跨领域的表示泛化能力，从而选择适当的文体特征在不同场景下实现更准确的作者识别。

Sep, 2023

大型语言模型上的神经作者归属性：风格分析

通过实证分析大型语言模型（LLMs）的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯，为神经网络作者归属提供经验性洞见，为应对 AI 生成的错误信息的威胁铺平道路。

Aug, 2023

社交媒体中的作者身份验证相似性学习

提出了一种新的神经网络拓扑结构用于类似社交媒体这类挑战性数据集上，有效地提高了作者验证任务的性能。

Aug, 2019

写作风格感知的文档级事件抽取

事件提取模型针对多领域文档的写作风格，提出了一个与上下文相关的监督机制来建模文档中的事件结构信息，结果表明该方法能够较好地捕捉这种写作风格的模式。

Jan, 2022

TraSE：从认知科学的角度来解决作者风格问题

本文通过采用基于轨迹的风格估计算法，提出了一种新的特征表示法，成功地解决了作者风格识别领域中遇到的主题影响、无法有效鉴别大量作者和需要大量多样化数据的问题，并在跨领域的场景中筛选超过 27,000 个作者和 1.4 万个样本进行了作者归属实验。实验结果表明，该算法对负面影响具有免疫力，并成为风格研究的一个优秀选择。最后，通过以生理人类特征（如年龄）为基础进行定性分析，验证了其认知特征的表达能力。

Jun, 2022