作者身份表达学习能捕捉到文体特征吗？

ACLAug, 2023

作者身份表达学习能捕捉到文体特征吗？

Can Authorship Representation Learning Capture Stylistic Features?

Andrew Wang, Cristina Aggazzotti, Rebecca Kotula, Rafael Rivera Soto, Marcus Bishop...

TL;DR自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Abstract

Automatically disentangling an author's style from the content of their writing is a longstanding and possibly insurmountable problem in computational linguistics. At the same time, the availability of large text corpora furnished with author labels has recently enabled learning

authorship representations writing style content topic drift style transfer

发现论文，激发创造

提升作者识别中的表示泛化能力

通过深度学习模型，特别是包含字符 n-grams 和句法信息的模型，学习的表示方式有望提高跨领域的表示泛化能力，从而选择适当的文体特征在不同场景下实现更准确的作者识别。

Sep, 2023

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

同一作者还是同一主题？走向内容无关的风格表述

利用控制会话或领域标签的方法改变作者验证任务来训练文体表征，从而更好地表示独立于内容的文体维度。

Apr, 2022

具有风格意识的神经模型及其在作者归属方面的应用

本文提出了一种样式感知神经模型，以从三个样式水平对文档信息进行编码，并在作者归属领域进行评估，实验结果表明，相对于文献中的基线方法，从所有三个样式水平编码文档信息具有显著的优势，实验数据来源于四个基准数据集。

Sep, 2019

构建稳健且保护隐私的文本表现

本文提出了一种明确遮蔽作者特征的方法，使训练后的表示对这些属性不变，以便在两个任务中评估，表明这导致所学表示的隐私性增强，以及更强大的模型应对不同的评估条件，包括领域外语料库。

May, 2018

TraSE：从认知科学的角度来解决作者风格问题

本文通过采用基于轨迹的风格估计算法，提出了一种新的特征表示法，成功地解决了作者风格识别领域中遇到的主题影响、无法有效鉴别大量作者和需要大量多样化数据的问题，并在跨领域的场景中筛选超过 27,000 个作者和 1.4 万个样本进行了作者归属实验。实验结果表明，该算法对负面影响具有免疫力，并成为风格研究的一个优秀选择。最后，通过以生理人类特征（如年龄）为基础进行定性分析，验证了其认知特征的表达能力。

Jun, 2022

通过提示 LLMs 学习可解释的风格嵌入

本研究使用提示技术，对大量文本进行文体分析，得到了一组可解释的文体表示方法 LISA embeddings，为解决当前使用神经网络进行文体表示学习所面临的可解释性困境提供了新的解决方案。

May, 2023

基于风格表示的机器生成文本的少样本检测

利用人类文本估计的写作风格来区分人类作者和机器作者，以及预测给定文档由哪个语言模型生成。

Jan, 2024

学习在任意书写风格中生成文本

通过对比训练的表示捕捉风格特征，从而引导语言模型以目标风格生成文本，实现满足作者特定风格的生成，而不需要微调底层语言模型。

Dec, 2023

透过作者分类进行文档来源和认证

本文提出了一个基于集成的文本处理框架，用于单作者和多作者文档的分类，并通过多种权重优化和选择方法来分配基于优点的权重，可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验，并在大规模基准数据集上进行了评估，显著提高了现有解决方案的性能。

Mar, 2023