捕捉作者和文档特征中的风格
本文提出了一种样式感知神经模型,以从三个样式水平对文档信息进行编码,并在作者归属领域进行评估,实验结果表明,相对于文献中的基线方法,从所有三个样式水平编码文档信息具有显著的优势,实验数据来源于四个基准数据集。
Sep, 2019
本研究提出了从词汇、句法和语义三个方面分析个体写作风格的过程,并展示该过程在作者风格分析、作者归属度和情感预测方面的应用,结果表明这种多层次的写作风格分析方法能够量化地模拟文本中的主观性,从而在多个任务上提高定量和定性表现。
Sep, 2019
本文提出 DeepStyle,一种基于嵌入式框架的新方法,通过学习用户突出的写作风格特征,从而解决了现存的文本分类方法在作者预测的可解释性以及使用单一特征的局限性。在Twitter和微博数据集的实验中,DeepStyle 显示出优于其他最先进的基线方法的性能表现。
Mar, 2021
本文提出了一种名为STYLL的方法,能够在Reddit上只有少量目标作者的样式的情况下进行低资源的作者风格转移任务,并通过作者风格表示嵌入和自动评估方法在该任务上优于STRAP和其他基线方法。
Dec, 2022
本研究使用提示技术,对大量文本进行文体分析,得到了一组可解释的文体表示方法 LISA embeddings,为解决当前使用神经网络进行文体表示学习所面临的可解释性困境提供了新的解决方案。
May, 2023
本文提出了一种基于双向长短期记忆(BLSTM)和二维卷积神经网络(CNN)的方法来进行文本作者识别,通过使用子词信息获得特征之间的顺序关系以及了解风格的局部语法位置,实验证明该方法相比其他最新方法在CCAT50和Twitter上分别提高了1.07%和0.96%的准确率,并在其余数据集上产生了可比较的结果。
Jun, 2023
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。
Aug, 2023
通过深度学习模型,特别是包含字符 n-grams 和句法信息的模型,学习的表示方式有望提高跨领域的表示泛化能力,从而选择适当的文体特征在不同场景下实现更准确的作者识别。
Sep, 2023
在线社交网络是有害行为的肥沃土壤,从仇恨言论到虚假信息的传播。我们提出了一种基于作者风格的转换模型 STAR,通过关联内容与其各自的作者来理解有害行为。我们的模型在与PAN挑战中的归因和聚类任务上表现出有竞争力的性能,并且在PAN验证挑战中使用单个密集层取得了有希望的结果。
Oct, 2023