作者至关重要:理解和减轻深度文本分类中的隐性偏见
本文中提出了一种对文本分类数据集中存在的偏见进行处理的方法,该方法通过实例加权对数据进行处理并恢复非歧视分布,从而提高了算法的泛化能力。
Apr, 2020
本研究旨在揭示 Text-to-SQL 模型中的社会偏见,通过建立测试基准和展示如何利用我们的方法来揭示并评估下游 Text-to-SQL 任务中的社会偏见。
May, 2023
在这项研究中,我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架,并进一步提出了两种去偏方法:(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法,以及 (b) 通过文本到图像生成模型进行数据增强,使用获得的偏见关键词作为提示。实验结果表明,尽管简单,我们的框架不仅能在没有先验知识的情况下胜过现有方法,而且甚至可以与假设有先验知识的方法媲美。
Jun, 2024
我们提供了一个数据集和方法,用于改善分类器和语言模型中的文本公平性,包括创建了一个包含 15,123 个身份术语和相关语境的全面身份词典,并运用该词典开发了一种身份注解和增强工具,通过人类贡献者的评估以及针对数据集和模型纠偏的实验,结果表明我们的辅助注解技术提高了人为参与流程的可靠性和速度,同时也揭示了更多的不平等现象,以及在补救过程中产生了更公平的模型,这些方法为在现实世界环境中扩大分类器和生成模型的公平性提供了实际路径。
Sep, 2023
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
通过引入偏见专家(bias experts),我们提出了一个新的去偏框架,改善了辅助模型的偏见识别能力,并且在各种挑战性数据集上始终优于现有技术水平。
Dec, 2023
本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响,利用 RedditBias 数据库分析文本偏见,在偏见分类上,BERT,尤其是迷你 BERT,表现出色,而多语言模型则表现较差。研究建议改进单语模型,并探索领域特定的偏见。
Nov, 2023
本文提出了一种使用对抗性训练的方法,通过同时预测文本的标签和混淆因素,逐步地学习对话题无关的文本表示,以提高神经网络模型在母语识别任务中的泛化性能。
Sep, 2019
本文介绍了一种多类去偏差词嵌入的方法及其在标准自然语言处理任务中的有效性,防止机器学习模型被嵌入了在线文本中的人类刻板印象和偏见。
Apr, 2019
本文系统分析了 NLP 模型中的上游偏差、样本偏差和过度放大偏差导致的不公平性,探讨了使用不同去偏技术消除这些偏差对文本分类任务公正性的影响,并发现过度放大偏差是对文本分类公正性影响最大的偏差。而通过在收集不同身份群体平衡的数据集上进行 LM 模型微调来消除过度放大偏差会导致更公正的文本分类模型,最终提出了创建公正的文本分类模型的实用指南。
May, 2023