文本转 SQL 中的社会偏见揭示与分类
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023
本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响,利用 RedditBias 数据库分析文本偏见,在偏见分类上,BERT,尤其是迷你 BERT,表现出色,而多语言模型则表现较差。研究建议改进单语模型,并探索领域特定的偏见。
Nov, 2023
研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展,以便降低固有的社会偏见以及探究三个最近的模型(ELECTRA,DeBERTa 和 DistilBERT)在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标,并发现所有研究对象都存在有偏差,但完整指标相对于 BERT 有所提高。
Apr, 2023
本文研究探究深度文本分类模型中的显式和隐式偏差,并提出了一种 Debiased-TC 框架来缓解隐式偏差并提高模型的公平性及分类性能。
May, 2021
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
使用合成图像的方法探索扩散模型的两个应用领域(图像编辑和分类),从而揭示了目前最先进的开源文本到图像模型 Stable Diffusion 中存在的具有意义且显著的交叉社会偏见,这对于下游任务和服务中文本到图像基础模型的不加思考的应用提出了警告。
Dec, 2023
通过一系列的实验,我们发现大型语言模型在表格预测任务中往往会继承社会偏见,这从根源上影响了它们的公平性,并且通过标签反转等方法可以显著减少这些偏见。
Oct, 2023
本研究介绍了一个新的数据集 ToxicBias,这是从 Kaggle 竞赛中现有的数据集 “Jigsaw Unintended Bias in Toxicity Classification” 中精心策划的,旨在检测社交偏见及其类别和目标群体。我们使用我们策划的数据集对基于转换器的模型进行训练,并报告了偏见识别、目标生成和偏见影响的基线性能。研究还详细讨论了模型偏见及其缓解。
Oct, 2022