内容条件去偏差以实现公平的文本嵌入

Feb, 2024

内容条件去偏差以实现公平的文本嵌入

Content Conditional Debiasing for Fair Text Embedding

Wenlong Deng, Blair Chen, Xiaoxiao Li, Christos Thrampoulidis

TL;DR在自然语言处理领域，解决机器学习模型中的偏见问题日益受到关注。本文提出了一种学习公平文本嵌入的新方法，通过确保在内容条件下敏感属性与文本嵌入之间的条件独立性，同时实现公平性并保持效用平衡。通过使用大型语言模型将文本扩充为不同敏感组，解决了缺乏适当训练数据的问题。我们的广泛评估表明，我们的方法在提高公平性的同时保持了嵌入的实用性，是在实现公平文本嵌入的条件独立性方面的先驱性工作。

Abstract

Mitigating biases in machine learning models has gained increasing attention in Natural Language Processing (NLP). Yet, only a few studies focus on fair text embeddings, which are crucial yet challenging for real-world applications. In this paper, we propose a novel method for learning

bias mitigation machine learning models fair text embeddings conditional independence utility trade-off

发现论文，激发创造

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

公平自然语言处理的扰动增强

本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响，通过对大量的人工标注文本扰动数据的训练，得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平，并且能在不牺牲下游任务性能的前提下减少模型的偏差。

May, 2022

InterFair: 具有自然语言反馈的去偏见公平可解释预测

该研究论文提出，自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置，而不是盲目地消除它，为了实现公平平衡，研究人员建议采用能够与用户互动并提供反馈的交互式方法，从而在任务表现和偏置缓解之间实现更好和公正的平衡，并支持详尽的解释。

Oct, 2022

在多模态临床自然语言处理中探讨文本特定和黑盒公平算法

研究了多模式临床数据上的公平性问题，提出了采用收集的嵌入方法等实现平衡的算法，为以后的临床自然语言处理和公平性提供了启示。

Nov, 2020

使用端到端管道方法解决文本中的偏见

本文提出一种公平的 ML 管道，旨在通过替换存在偏见和有害内容的单词来降低社交媒体数据中的偏见影响。结果显示我们的方法可以检测、识别和减轻社交媒体数据中的偏见和有害内容。

Mar, 2023

基于 Wasserstein 独立性的公平文本分类

该论文提出了一种新的方法来减轻神经文本分类中的偏见，它能够在处理公正性问题时不需要敏感属性的注释，与现有的方法相比具有可比较或更好的公正性和准确性权衡。

Nov, 2023

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

在公平表示和准确性之间填补差距

通过分析文档和句子的自然语言表示（即编码），我们发现并研究了这些编码中可能存在的针对不同子群体的偏见，并提出了缓解这种偏见的方法同时保持分类模型的较高准确性。

Apr, 2024

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

控制偏见暴露以实现公平和可解释的预测

本文提出了一种公平去偏算法，通过调整预测模型的信念，尽可能使用敏感信息来进行预测，并在必要性最小化的同时承受一定的惩罚，以达到去偏和任务性能之间的理想平衡，并生成经过去偏的证明。

Oct, 2022