大规模语言模型中的偏见检测: Fine-tuned KcBERT

Mar, 2024

大规模语言模型中的偏见检测: Fine-tuned KcBERT

Detecting Bias in Large Language Models: Fine-tuned KcBERT

J. K. Lee, T. M. Chung

TL;DR该论文研究了大型语言模型对社会性偏见的影响，特别是在韩语环境中，通过平衡数据分布和应用去偏的正则化方法，减少种族、性别以及种族偏见。

Abstract

The rapid advancement of large language models (LLMs) has enabled natural language processing capabilities similar to those of humans, and LLMs are being widely utilized across various societal domains such as education and healthcare. While the versatility of these models has increase

large language models societal bias ethnic bias gender bias racial bias

发现论文，激发创造

减轻 BERT 中的语言依赖性民族偏见

本文旨在研究 BERT 等大型语言模型中的偏见问题，特别是种族偏见问题的度量和消除方法，使用了 “Categorical Bias score” 度量方法和两种消除方法，包括多语言模型和两个单语言模型的上下文词对齐方法，并对英语，德语，西班牙语，韩语，土耳其语和中文等多种语言进行验证和比较。结果表明，这些方法可以有效减轻种族偏见问题，但效果取决于该语言的 NLP 资源量。同时，本论文还验证了这些方法适用于更多种语言，如阿拉伯语和希腊语。

Sep, 2021

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

KoSBI：减少社会偏见风险的数据集，以更安全的大型语言模型应用为目标

通过构建本土化社会偏见数据集，可以减少韩国大型语言模型的社会偏见，有效地保证其安全、可靠、有效地部署。

May, 2023

分析多种语言 BERT 变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

评估最近大型预训练模型中的社会偏见

研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展，以便降低固有的社会偏见以及探究三个最近的模型（ELECTRA，DeBERTa 和 DistilBERT）在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标，并发现所有研究对象都存在有偏差，但完整指标相对于 BERT 有所提高。

Apr, 2023

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023