捕捉作者和文档特征中的风格

Jul, 2024

Capturing Style in Author and Document Representation

Enzo Terreau, Antoine Gourru, Julien Velcin

TL;DR提出了一种基于变分信息瓶颈 (Variational Information Bottleneck, VIB) 的新架构，使用样式约束来学习作者和文档的嵌入，以捕捉更准确的作者文体方面，并在作者归属方面与强大的基准线模型相匹配或超越。

Abstract

A wide range of deep natural language processing (NLP) models integrates continuous and low dimensional representations of words and documents. Surprisingly, very few models study representation learning for auth

发现论文，激发创造

具有风格意识的神经模型及其在作者归属方面的应用

本文提出了一种样式感知神经模型，以从三个样式水平对文档信息进行编码，并在作者归属领域进行评估，实验结果表明，相对于文献中的基线方法，从所有三个样式水平编码文档信息具有显著的优势，实验数据来源于四个基准数据集。

Sep, 2019

文本风格的词汇、句法和语义视角

本研究提出了从词汇、句法和语义三个方面分析个体写作风格的过程，并展示该过程在作者风格分析、作者归属度和情感预测方面的应用，结果表明这种多层次的写作风格分析方法能够量化地模拟文本中的主观性，从而在多个任务上提高定量和定性表现。

Sep, 2019

DeepStyle: 短文本作者归属的用户样式嵌入

本文提出 DeepStyle，一种基于嵌入式框架的新方法，通过学习用户突出的写作风格特征，从而解决了现存的文本分类方法在作者预测的可解释性以及使用单一特征的局限性。在Twitter和微博数据集的实验中，DeepStyle 显示出优于其他最先进的基线方法的性能表现。

Mar, 2021

同一作者还是同一主题？走向内容无关的风格表述

利用控制会话或领域标签的方法改变作者验证任务来训练文体表征，从而更好地表示独立于内容的文体维度。

Apr, 2022

基于上下文学习的低资源作者风格转移

本文提出了一种名为STYLL的方法，能够在Reddit上只有少量目标作者的样式的情况下进行低资源的作者风格转移任务，并通过作者风格表示嵌入和自动评估方法在该任务上优于STRAP和其他基线方法。

Dec, 2022

通过提示LLMs学习可解释的风格嵌入

本研究使用提示技术，对大量文本进行文体分析，得到了一组可解释的文体表示方法 LISA embeddings，为解决当前使用神经网络进行文体表示学习所面临的可解释性困境提供了新的解决方案。

May, 2023

将双向长短期记忆网络与子单词嵌入结合，用于作者归属度量

本文提出了一种基于双向长短期记忆(BLSTM)和二维卷积神经网络(CNN)的方法来进行文本作者识别，通过使用子词信息获得特征之间的顺序关系以及了解风格的局部语法位置，实验证明该方法相比其他最新方法在CCAT50和Twitter上分别提高了1.07％和0.96％的准确率，并在其余数据集上产生了可比较的结果。

Jun, 2023

作者身份表达学习能捕捉到文体特征吗？

自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Aug, 2023

提升作者识别中的表示泛化能力

通过深度学习模型，特别是包含字符 n-grams 和句法信息的模型，学习的表示方式有望提高跨领域的表示泛化能力，从而选择适当的文体特征在不同场景下实现更准确的作者识别。

Sep, 2023

利用监督对比预训练转换器解析社交媒体中的写作风格

在线社交网络是有害行为的肥沃土壤，从仇恨言论到虚假信息的传播。我们提出了一种基于作者风格的转换模型 STAR，通过关联内容与其各自的作者来理解有害行为。我们的模型在与PAN挑战中的归因和聚类任务上表现出有竞争力的性能，并且在PAN验证挑战中使用单个密集层取得了有希望的结果。

Oct, 2023