将风格与实质分开:通过数据选择和展示提升跨类型作者归属
我们介绍了作者-主题模型,它是一种生成文档的模型,扩展了隐含狄利克雷分配(LDA),包括作者信息,应用于NIPS会议论文和CiteSeer摘要,具有估算主题和作者分布的Gibbs采样基础上的性能比较。
Jul, 2012
本文提出了一种样式感知神经模型,以从三个样式水平对文档信息进行编码,并在作者归属领域进行评估,实验结果表明,相对于文献中的基线方法,从所有三个样式水平编码文档信息具有显著的优势,实验数据来源于四个基准数据集。
Sep, 2019
在这篇论文中,我们提出了一个任务:主题混淆,用于区分写作风格捕捉能力不足还是主题转换造成的错误,我们表明带有词性标注的文体特征对主题变化最不敏感,将它们与其他特征相结合可显著降低主题混淆并提高归属准确性,最后表明像BERT和RoBERTa等预训练语言模型在这项任务中表现不佳,远不如诸如单词级n元语法等简单特征。
Apr, 2021
本论文提出了一种新方法——使用对比学习在预训练语言模型的基础上微调特定作者的表征,以提高文本作者鉴定的准确性,该方法将最新的研究前沿提高至多6.8%。但是,该方法的性能指标有所牺牲,需要进一步研究解决。
Sep, 2022
本文提出了一种名为STYLL的方法,能够在Reddit上只有少量目标作者的样式的情况下进行低资源的作者风格转移任务,并通过作者风格表示嵌入和自动评估方法在该任务上优于STRAP和其他基线方法。
Dec, 2022
本文提出了一种基于双向长短期记忆(BLSTM)和二维卷积神经网络(CNN)的方法来进行文本作者识别,通过使用子词信息获得特征之间的顺序关系以及了解风格的局部语法位置,实验证明该方法相比其他最新方法在CCAT50和Twitter上分别提高了1.07%和0.96%的准确率,并在其余数据集上产生了可比较的结果。
Jun, 2023
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。
Aug, 2023
通过深度学习模型,特别是包含字符 n-grams 和句法信息的模型,学习的表示方式有望提高跨领域的表示泛化能力,从而选择适当的文体特征在不同场景下实现更准确的作者识别。
Sep, 2023
提出了一种基于变分信息瓶颈 (Variational Information Bottleneck, VIB) 的新架构,使用样式约束来学习作者和文档的嵌入,以捕捉更准确的作者文体方面,并在作者归属方面与强大的基准线模型相匹配或超越。
Jul, 2024
本文针对现有作者归属方法无法解释的潜在空间表示问题,提出了一种新颖的解释方法,通过识别潜在空间中的代表性点并利用大型语言模型生成各点写作风格的自然语言描述。研究发现,该方法在预测一致性方面优于其他基线,并且通过人类评估验证了风格描述作为潜在空间解释的有效性,帮助提高作者归属任务的准确率,平均提升约20%。
Sep, 2024