提炼本质,舍弃瑕疵!通过对事实因果效应进行去偏差处理的有毒语言检测
由于文本分类器开发中的偏见关联限制了公平性和准确性,因此我们调查了最近介绍的去偏置方法,作用于检测有毒语言的文本分类数据集和模型,重点关注词汇(例如骂人话、侮辱性言论、身份称谓)和方言标记(特别是非裔美国英语)。我们的全面实验表明,现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后,我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签,但该方法减少了方言与毒性之间的关联。总的来说,我们的发现表明,在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。
Jan, 2021
本文研究了如何缓解立场检测中数据集偏差的问题,通过借鉴因果效应的基本框架,我们使用对事实推理来建模并减少文本部分的数据集偏差,同时提出了一种对抗性偏差学习模块来更准确地建模偏差特征。实验证明,我们的模型在原始数据集和大部分新构造的测试集上优于现有的去偏差方法。
Dec, 2022
本文调查了五种最近提出的消除算法:CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示,Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致,同时算法会降低模型的语言建模能力,难以确定去偏置的效果。
Oct, 2021
通过使用数据处理技术和双目标训练方案,我们提出了一个基于模型的解决方案来生成对抗性样本以减轻性别偏见,并通过实证评估表明我们的模型减轻了基于词典的解决方案的缺点。
Nov, 2023
本文介绍了一种使用大型语言模型生成对抗样本的方法,该方法克服了现有方法的局限性,能够产生复杂的对抗样本,并在 Civil Comments 数据集上比较了各种方法的性能和价值,并展示了其在评估毒性分类器方面的价值。
Jun, 2022
通过使用反事实生成方法以及可解释性人工智能(XAI)领域的方法来目标化和缓解文本毒性,我们提出了一种文本解毒方法,该方法能够在去除有害含义的同时保留初始非毒性含义,并且对三个数据集进行比较实证研究和评估结果表明,最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性,并更好地保留了初始文本的含义。此外,我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题,这项工作是首次将反事实生成与文本解毒结合起来,为 XAI 方法的更实际应用铺平了道路。
May, 2024
本文研究文本分类中的反事实公平性问题,提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则,利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题,这些方法不会影响分类器性能,并且在小组公平性方面具有变化,为解决文本分类中的公平性问题提供了新的途径。
Sep, 2018
使用因果平均处理效应(ATE)分数和反事实增强作为文本生成任务语言模型(LMs)属性控制的方法,我们提出了因果公平语言(CFL)架构,以插入并播放的方式解毒预训练 LMs。我们的实验表明,CFL 实现了这种解毒而不会对模型困惑度产生太大影响,并通过对 BOLD 数据集的实验表明,CFL 可以缓解意外偏见问题。
Jun, 2023
本文旨在量化并减少语言模型中表现出的情感偏见,该文分析了在给定的条件下(例如写作提示)和语言模型中,引起生成的文本情感发生变化的敏感属性(例如国家名称,职业,性别)的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见,并证明在两种不同的语料库(新闻文章和维基百科)上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法,该方法应用于语言模型的潜在表示。该正则化提高了公正度量,同时保持了可比水平的困惑度和语义相似性。
Nov, 2019
本研究提出了一种名为 CoFactSum 的去偏见框架,通过反事实估计,减轻了生成摘要时的语言偏见和不相关偏见的影响,并使用动态的偏差度调整机制。实验结果表明,与几种基线方法相比,CoFactSum 在提高生成的摘要的事实一致性方面具有显著效果。
May, 2023