柔性文本生成用于反事实公平探究

Jun, 2022

柔性文本生成用于反事实公平探究

Flexible text generation for counterfactual fairness probing

Zee Fryer, Vera Axelrod, Ben Packer, Alex Beutel, Jilin Chen...

TL;DR本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Abstract

A common approach for testing fairness issues in text-based classifiers is through the use of counterfactuals: does the classifier output

fairness text-based classifiers counterfactuals sensitive attributes large language models

发现论文，激发创造

通过鲁棒性实现文本分类的反事实公平性

本文研究文本分类中的反事实公平性问题，提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则，利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题，这些方法不会影响分类器性能，并且在小组公平性方面具有变化，为解决文本分类中的公平性问题提供了新的途径。

Sep, 2018

文本分类中的逆因果多令牌公平性

本文提出了一种名为 Counterfactual Multi-token Generation 的生成方案，通过扰动多个敏感 Token，可对各种形式的文本和文档实现更好的 Counterfactual 公平性，获得在多个基准数据集上显著的性能提升。

Feb, 2022

用反事实表示解释文本分类器

通过在文本表示空间进行干预的简单方法生成对抗事实，以用于分类器解释和偏见缓解。

Feb, 2024

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

COFFEE：可解释推荐中针对个性化文本生成的反事实公平性

本文研究个性化文本生成中的公平性问题，提出了一个可适用于现有模型和实际场景的通用框架，以促进文本的公平性，消除因用户属性造成的偏见。

Oct, 2022

使用有意义对照实验的交互式 LLMs 分析

生成完整且有意义的文本反事实示例的新算法以及交互式可视化工具，用于分析和解释 LLMs。

Apr, 2024

通过自动生成的反事实情况实现文本分类中对伪相关性的鲁棒性

通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器，以强化模型可靠性和泛化性，实验证明，其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。

Dec, 2020

生成反事实：控制文本反事实生成

我们提出了一个名为 GYC 的框架，用于生成反事实文本样本，以测试机器学习系统的公正性和鲁棒性，特别地，我们生成了反事实样本，以便向对应条件如命名实体标签、语义角色标签或情感方向进行引导，同时我们在各领域实验的结果表明 GYC 生成了具有可信性、多样性、目标性和有效性的反事实样本，其可作为模型和任何文本去偏差算法的测试用例。

Dec, 2020

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

利用反事实生成减轻文本毒性

通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

May, 2024