提升作者识别中的表示泛化能力
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质,特别是验证它们主要是否编码写作风格的假设,我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明,学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此,可预期作者表征对某些数据转换具有稳健性,例如随时间的主题漂移。此外,我们的发现可能为需要风格表征的下游应用开启大门,如风格转换。
Aug, 2023
本文提出了一种使用神经网络方法来模拟人类组合句子过程,将语言特征的不同类别合并到单词的分布式表示中,以同时学习作者文体表示的作者分析方法,提取出每个文档的话题、词汇、句法和字符级别的特征向量,实验结果表明,这种方法在作者特征化和作者验证方面具有优异的性能。
Jun, 2016
本文研究了利用字符三元组频率等常用方法进行作者分析的不足,探讨了领域特异性和主题对于作者风格的影响,并通过固定作者但领域交换的实验展示,表明该方法在未考虑领域的情况下高度偏向于领域信息,对于此,本文提出了以领域对抗学习为基础的新疗法,并将其比较了基于启发式规则的一些方法,发现新方法和其他方法均可有效缓解领域交换对分类准确度的影响。
May, 2020
本文提出了一个基于集成的文本处理框架,用于单作者和多作者文档的分类,并通过多种权重优化和选择方法来分配基于优点的权重,可以用于文本风格分析中的关键任务。在干净和非干净数据上进行了实验,并在大规模基准数据集上进行了评估,显著提高了现有解决方案的性能。
Mar, 2023
本文通过采用基于轨迹的风格估计算法,提出了一种新的特征表示法,成功地解决了作者风格识别领域中遇到的主题影响、无法有效鉴别大量作者和需要大量多样化数据的问题,并在跨领域的场景中筛选超过 27,000 个作者和 1.4 万个样本进行了作者归属实验。实验结果表明,该算法对负面影响具有免疫力,并成为风格研究的一个优秀选择。最后,通过以生理人类特征(如年龄)为基础进行定性分析,验证了其认知特征的表达能力。
Jun, 2022
本文提出了一种明确遮蔽作者特征的方法,使训练后的表示对这些属性不变,以便在两个任务中评估,表明这导致所学表示的隐私性增强,以及更强大的模型应对不同的评估条件,包括领域外语料库。
May, 2018
通过大规模的跨作者比较,我们引入了一种新方法来通过识别和编码风格特征来研究 idiolects,神经模型在短文本上实现了强大的作者识别性能,并通过类比探测任务展示出学习到的表示具有惊人的规律性,在文本扰动中,我们量化了不同语言元素对 idiolectal 变化的相对贡献,同时通过测量互作者和内作者的变化来描述 idiolects,这些结果表明 idiolectal 的变化具有独特而一致的特征。
Sep, 2021
本文研究了基于文体分析技术的三项主要任务:单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架,本文提出了一种解决方案,并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明,在基准数据集上,对于所有三个任务,本文的解决方案相比现有解决方案取得了显著的改进。
Jan, 2024