基于神经网络的偏见语言陈述分类

Nov, 2018

基于神经网络的偏见语言陈述分类

Neural Based Statement Classification for Biased Language

Christoph Hube, Besnik Fetahu

TL;DR本研究提出了一种基于循环神经网络的方法，旨在捕捉引入偏见的短语中单词间的相互依赖关系，并通过实验评估表明其相对于基于词汇表和其他手工特征的竞争对手具有优势，能够以 0.92 的精度区分偏见性语句，最终发布了最大的标记有偏见语言的语料库。

Abstract

biased language commonly occurs around topics which are of controversial nature, thus, stirring disagreement between the different involved parties of a discussion. This is due to the fact that for language and its use, specifically, the understanding and use of phrases, the stances ar

biased language phrasing bias neural network experimental evaluation annotated corpus

发现论文，激发创造

NBIAS：文本中的偏见识别的自然语言处理框架

通过开发一个全面而健壮的框架 “Nbias”，我们能够检测和消除文本数据中的偏见，以确保数据的公正和道德使用。该框架包括数据层、语料库构建、模型开发层和评估层，并应用了基于 transformer 的标记分类模型识别具有独特命名实体的偏见词语 / 短语。通过定量和定性评估的混合方法，我们取得了 1% 至 8% 的准确率改进，同时还能全面理解模型的性能，捕捉其数量数据以及质量和复杂性的特征。该方法适用于各种偏见，并促进了文本数据的公正和道德使用。

Aug, 2023

论辩中立场失衡的感知性偏差

探讨了传统自然语言处理方法中的绝对偏见分类目标是否可取，并尝试提供了一种基于相对偏见分析的模型。作者以争论中的立场偏见为案例进行众包实验，证明有较弱的人工干预的情况下可以感知文本之间的相对偏见区别。

Oct, 2022

文本自动消除主观偏见

本研究提出了一个新的自然语言生成平台，用于将带有主观倾向的文本转化为客观中立的文本，还提出了一个包含 180000 个句子对的重要语料库，并介绍了两种针对该任务的强大编解码器基线，同时进行了大规模人类评估，结果表明这些算法是自动识别和减少偏见的第一步。

Nov, 2019

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

关于预训练神经语言模型中偏见性的加强理解：一项调查，特别关注情感偏见

本文针对大型预训练语言模型中的偏差问题进行调研，分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨，旨在提供未来研究的参考和挑战。

Apr, 2022

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

使用上下文化词嵌入向主观偏见检测迈进

本研究使用基于 BERT 模型的集成模型在 Wiki 中性语料库上进行了全面实验，从而检测到了主观偏见，并提出了比 BERT large 更具先进性的方法，F1 得分上升了 5.6%。

Feb, 2020

自然语言处理模型中的预测偏见：概念框架和概述

文章提出了一种用于 NLP（自然语言处理）的预测性偏差框架，该框架将数据、模型、标签偏差、选择偏差、模型过度放大、语义偏差作为偏差的四个主要来源，并探讨了过去的工作是如何对抗每种偏差来源的，以期引导未来研究。

Nov, 2019

恶魔在神经元中：解释和减轻预训练语言模型中的社会偏见

该论文提出了 "社会偏见神经元" 的概念，并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法，从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据，通过测量其产生的偏差来定位并抑制造成不良行为的特定神经元。该模型在降低社会偏见的同时保持了较低的成本和良好的语言建模能力。

Jun, 2024

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021