大规模语言模型中的偏见检测: Fine-tuned KcBERT
本文旨在研究 BERT 等大型语言模型中的偏见问题,特别是种族偏见问题的度量和消除方法,使用了 “Categorical Bias score” 度量方法和两种消除方法,包括多语言模型和两个单语言模型的上下文词对齐方法,并对英语,德语,西班牙语,韩语,土耳其语和中文等多种语言进行验证和比较。结果表明,这些方法可以有效减轻种族偏见问题,但效果取决于该语言的 NLP 资源量。同时,本论文还验证了这些方法适用于更多种语言,如阿拉伯语和希腊语。
Sep, 2021
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展,以便降低固有的社会偏见以及探究三个最近的模型(ELECTRA,DeBERTa 和 DistilBERT)在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标,并发现所有研究对象都存在有偏差,但完整指标相对于 BERT 有所提高。
Apr, 2023
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023