寻凶？学习对比进行作者归属度量

ACLSep, 2022

寻凶？学习对比进行作者归属度量

Whodunit? Learning to Contrast for Authorship Attribution

Bo Ai, Yuchen Wang, Yugin Tan, Samson Tan

TL;DR本论文提出了一种新方法 —— 使用对比学习在预训练语言模型的基础上微调特定作者的表征，以提高文本作者鉴定的准确性，该方法将最新的研究前沿提高至多 6.8％。但是，该方法的性能指标有所牺牲，需要进一步研究解决。

Abstract

authorship attribution is the task of identifying the author of a given text. The key is finding representations that can differentiate between authors. Existing approaches typically use manually designed features that capture a dataset's content and style, but these approaches are dat

authorship attribution representation learning pre-trained language models contrastive learning performance improvement

发现论文，激发创造

PART: 预训练的作者表示转换器

提出 PART: 一种对比训练的模型，用于学习作者嵌入，以确定文本的专有权通过评估所述文件的余弦相似性，用于文学作品、匿名博客帖子和公司电子邮件的作者识别的零炮验证，并在可用数据集的不同数据可视化下定性评估表征。

Sep, 2022

主题混淆任务：一种新的作者归属场景

在这篇论文中，我们提出了一个任务：主题混淆，用于区分写作风格捕捉能力不足还是主题转换造成的错误，我们表明带有词性标注的文体特征对主题变化最不敏感，将它们与其他特征相结合可显著降低主题混淆并提高归属准确性，最后表明像 BERT 和 RoBERTa 等预训练语言模型在这项任务中表现不佳，远不如诸如单词级 n 元语法等简单特征。

Apr, 2021

作者身份表达学习能捕捉到文体特征吗？

自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而，最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征，用于作者归属的任务，这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而，成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格，因为作者归属也可能与其他潜在变量（如主题）相关。为了更好地理解这些表征传达的信息性质，特别是验证它们主要是否编码写作风格的假设，我们通过一系列有针对性的实验系统地探查了这些表征。这些实验的结果表明，学习用于替代作者归属预测任务的表征确实对写作风格敏感。因此，可预期作者表征对某些数据转换具有稳健性，例如随时间的主题漂移。此外，我们的发现可能为需要风格表征的下游应用开启大门，如风格转换。

Aug, 2023

构建稳健且保护隐私的文本表现

本文提出了一种明确遮蔽作者特征的方法，使训练后的表示对这些属性不变，以便在两个任务中评估，表明这导致所学表示的隐私性增强，以及更强大的模型应对不同的评估条件，包括领域外语料库。

May, 2018

提升作者识别中的表示泛化能力

通过深度学习模型，特别是包含字符 n-grams 和句法信息的模型，学习的表示方式有望提高跨领域的表示泛化能力，从而选择适当的文体特征在不同场景下实现更准确的作者识别。

Sep, 2023

不是所有的负样本都相等：针对细粒度文本分类的标签感知对比损失

本文分析了在细粒度文本分类任务情感分类和情感分析中预训练语言模型的对比微调。适应性嵌入类关系的对比目标函数可以有助于不同地权衡正面和负面情感，使得 Label-aware Contrastive Loss 在更多混淆类别的情况下表现更好。

Sep, 2021

公平表征的对比学习

本论文提出了一种采用对比学习的分类器去偏置化的方法，使得模型在保持主要任务性能的前提下，更加公平地代表输入的各种属性，并取得了在 NLP 和计算机视觉四个任务中的优异表现。

Sep, 2021

学习文体特征表示用于作者分析

本文提出了一种使用神经网络方法来模拟人类组合句子过程，将语言特征的不同类别合并到单词的分布式表示中，以同时学习作者文体表示的作者分析方法，提取出每个文档的话题、词汇、句法和字符级别的特征向量，实验结果表明，这种方法在作者特征化和作者验证方面具有优异的性能。

Jun, 2016

对比学习的隐私风险量化与减轻

本文针对对比度学习的隐私问题进行了首次隐私分析，实验结果表明，相对于监督学习模型，对比学习模型更易受到属性推断攻击，但其会导致的成员推断攻击风险较小。为解决这一问题，提出了一种新的隐私保护对比度学习机制 Talos，通过对抗式训练成功地缓解了属性推断威胁，同时保持了其成员隐私和模型效用。

Feb, 2021

ContraGen：用于因果语言模型的有效对比学习

本文提出了一种名为 ContraGen 的对比学习框架，用于解决语言生成过程中的表示限制问题，该框架可以显著提高表征的均匀性和区分性，改善语言理解和源代码生成的表现。

Oct, 2022