针对低资源的刻板印象检测的强化引导多任务学习框架

ACLMar, 2022

针对低资源的刻板印象检测的强化引导多任务学习框架

Reinforcement Guided Multi-Task Learning Framework for Low-Resource Stereotype Detection

Rajkumar Pujari, Erik Oveson, Priyanka Kulkarni, Elnaz Nouri

TL;DR通过构建新的 evaluation set，同时利用邻近任务进行多任务模型训练和强化学习，该论文成功提高了基于 Stereotype Detection 的任务性能。

Abstract

As large pre-trained language models (PLMs) trained on large amounts of data in an unsupervised manner become more ubiquitous, identifying various types of bias in the text has come into sharp focus. Existing "stereotyp

pre-trained language models stereotype detection multi-task learning reinforcement-learning empirical gains

发现论文，激发创造

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能工具进行验证和分析。在生成文本任务中，使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度，并得出了多个关键发现。

Apr, 2024

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架

本研究介绍了一种四阶段的框架来直接评估大型语言模型（LLMs）生成的内容中的刻板印象和偏见，包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外，本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究，我们按照这个四阶段框架构建了 Edu-FairBench，其中包含了 12632 个开放性问题，涵盖了九个敏感因素和 26 个教育场景。实验结果显示在 Edu-FairBench 上评估的五个 LLMs 存在不同程度的刻板印象和偏见。此外，我们提出的自动评估方法的结果与人工注释有很高的相关性。

Aug, 2023

FairMonitor：用于检测大型语言模型中的刻板印象和偏见的双重框架

使用 FairMonitor 框架，采用静态 - 动态检测方法对 LLMs 中的刻板印象和偏见进行全面评估。静态组件包括直接问询测试、隐含联想测试和未知情境测试，用于评估显性和隐性偏见。动态组件利用多智能体系统构建动态场景，检测复杂和现实设置中 LLMs 的细微偏见。实验结果表明，静态和动态方法的合作能够检测出更多 LLMs 中的刻板印象和偏见。

May, 2024

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

大规模文本图像模型中检测隐含刻板印象的语言代理

这篇研究论文介绍了一种面向文本到图像模型的刻板印象检测的新型代理架构，并发现在个人特征、社会文化背景和犯罪相关方面存在严重的刻板印象。该论文还强调了在人工智能生成内容领域中解决潜在伦理风险的紧迫性。

Oct, 2023

自去偏大型语言模型：零样本识别和降低刻板印象

本文介绍了一种零样本自我去偏见技术，通过解释和重提出两种方法，利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下，减少九个不同社会群体的刻板印象程度，其中解释能够正确识别无效假设，重提出能够实现最大程度的偏见减少。我们希望本研究能够引发对其他零样本偏见减轻技术的探索。

Feb, 2024

StereoSet：测量预训练语言模型中的陈词滥调偏见

该论文介绍了 StereoSet，一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集，并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现，同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。

Apr, 2020

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024