关于预训练神经语言模型中偏见性的加强理解:一项调查,特别关注情感偏见
本文基于德文语料库的数据集,在多个体系结构中通过词嵌入联想测试(WEAT)分析了预先训练的德语语言模型的偏见,发现这些语言模型存在实质性的概念、种族和性别偏见,并且在同伴评审数据的微调中,偏见在概念和种族轴上有显着变化。
Sep, 2022
该研究针对大型预训练语言模型,通过对其在情感检测任务中存在的偏向性进行调查,揭示了情感偏差的存在。在分析情感偏斜的语料库分布的基础上,研究对不同偏向进行了广泛的分类和强度评估, 结果表明大型预训练语言模型在情感检测系统中存在明显的情感偏差,即某些情感与特定的性别、种族和宗教存在偏见。
Jan, 2023
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
文章提出了一种用于 NLP(自然语言处理)的预测性偏差框架,该框架将数据、模型、标签偏差、选择偏差、模型过度放大、语义偏差作为偏差的四个主要来源,并探讨了过去的工作是如何对抗每种偏差来源的,以期引导未来研究。
Nov, 2019
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对 NLP 研究的影响,并提出了减轻不公平的未来方向。
May, 2023
近年来,机器学习模型,特别是基于 Transformer 的预训练模型,对自然语言处理和计算机视觉领域产生了革命性的进展。然而,研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见,导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响,但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言,对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点,本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益,并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。
Sep, 2023
本文综述了自然语言处理技术的快速发展所带来的问题,尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念,并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。
Nov, 2022
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展,以便降低固有的社会偏见以及探究三个最近的模型(ELECTRA,DeBERTa 和 DistilBERT)在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标,并发现所有研究对象都存在有偏差,但完整指标相对于 BERT 有所提高。
Apr, 2023