文本分类中的逆因果多令牌公平性

Feb, 2022

文本分类中的逆因果多令牌公平性

Counterfactual Multi-Token Fairness in Text Classification

Pranay Lohia

TL;DR本文提出了一种名为 Counterfactual Multi-token Generation 的生成方案，通过扰动多个敏感 Token，可对各种形式的文本和文档实现更好的 Counterfactual 公平性，获得在多个基准数据集上显著的性能提升。

Abstract

The counterfactual token generation has been limited to perturbing only a single token in texts that are generally short and single sentences. These tokens are often associated with one of many sensitive attributes. With limited counterfactuals generated, the goal to achieve invariant nature for machine learning classification models towards any sensitive at

counterfactual multi-token generation counterfactual fairness machine learning sensitive tokens benchmark datasets

发现论文，激发创造

柔性文本生成用于反事实公平探究

本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Jun, 2022

通过鲁棒性实现文本分类的反事实公平性

本文研究文本分类中的反事实公平性问题，提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则，利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题，这些方法不会影响分类器性能，并且在小组公平性方面具有变化，为解决文本分类中的公平性问题提供了新的途径。

Sep, 2018

使用身份信息数据增强方法实现文本分类任务的公平性

本文提出了一种两步数据增强过程，第一步是使用词嵌入方法准备身份对的全面列表，第二步是利用身份对列表通过三种简单的操作（即身份对替换、身份项盲目替换和身份对交换）增强训练实例，实验结果表明，这个增强过程可以产生多样化的身份对，并提高了基于令牌的反事实公平度量得分，适用于两个文本分类任务。

Feb, 2022

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

COFFEE：可解释推荐中针对个性化文本生成的反事实公平性

本文研究个性化文本生成中的公平性问题，提出了一个可适用于现有模型和实际场景的通用框架，以促进文本的公平性，消除因用户属性造成的偏见。

Oct, 2022

用反事实表示解释文本分类器

通过在文本表示空间进行干预的简单方法生成对抗事实，以用于分类器解释和偏见缓解。

Feb, 2024

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

利用反事实生成减轻文本毒性

通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

May, 2024

最大化利用少量反事实增强情感分类鲁棒性

针对文本分类任务中的模型过度依赖模式数据的问题，本文提出了一种新的解决方案，使用编码向量空间的自动生成机制减少新数据生成的人工成本，只需对原始训练数据的一小部分（例如 1％）进行注释即可获得明显的准确性改进。实验证明，该方法对情感分类有效，并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时，仅添加 1％手动反事实数据即可获得 + 3％的准确性提升，相比于添加 100％的训练样本和其他反事实方法比较，准确性提高了 1.3％。

Oct, 2022