语言模型中的语言无关偏见检测
本文提出了一种考虑自然语言推理任务中所有标签的评估方法来评估预训练语言模型中的偏见,并通过对多种语言的模型进行元评估,证明该方法能够更准确地评估偏见。此外,本文还是首次在日语和中文的自然语言推理任务中构建评估数据集并测量预训练语言模型的偏见倾向。
Sep, 2023
通过使用结构化知识和大型生成模型,在多个偏见维度上以半自动的方式构建多样化反事实数据扩充(CDA),我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用,并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估,证明了我们的方法的有效性。
Feb, 2024
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对 NLP 研究的影响,并提出了减轻不公平的未来方向。
May, 2023
本文提出了一种地理表示探究框架,通过自我条件方法和实体 - 国家映射研究了 PLMs 中存在的地理偏见和知识,发现尽管 PLMs 的表示与物理世界的各个国家的关联性惊人地契合,但这种知识在不同语言中分享程度却有所不同,同时说明了大型 PLMs 虽然表现出了地理接近度的概念,但在推断时会过度放大地缘政治偏好。
Dec, 2022
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的 LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
本文基于德文语料库的数据集,在多个体系结构中通过词嵌入联想测试(WEAT)分析了预先训练的德语语言模型的偏见,发现这些语言模型存在实质性的概念、种族和性别偏见,并且在同伴评审数据的微调中,偏见在概念和种族轴上有显着变化。
Sep, 2022
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE,解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题,在性别去偏置任务上展示了 ADELE 的有效性,并证明其模块化特性使其在大规模下游训练后仍能保持公平,并成功将其运用到六种目标语种。
Sep, 2021
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024