使用基于提示的学习检测自然语言偏见

Sep, 2023

使用基于提示的学习检测自然语言偏见

Detecting Natural Language Biases with Prompt-based Learning

Md Abdul Aowal, Maliha T Islam, Priyanka Mary Mammen, Sandesh Shetty

TL;DR在该项目中，我们探索了新兴的提示工程领域，并将其应用于检测语言模型偏见的下游任务。具体而言，我们研究如何设计能够指示 4 种不同类型偏见（性别、种族、性取向和基于宗教）的提示。我们在多个流行和公认的模型（BERT、RoBERTa 和 T5）的不同变体上应用这些提示来评估其偏见。我们提供了这些模型的比较分析，并采用两种方法进行评估：使用人的判断来决定模型预测是否存在偏见，并利用模型级别的判断（通过进一步的提示）来了解模型是否能够自我诊断其预测的偏见。

Abstract

In this project, we want to explore the newly emerging field of prompt engineering and apply it to the downstream task of detecting lm biases. More concretely, we explore how to design prompts that can indicate 4

prompt engineering downstream task lm biases gender race

发现论文，激发创造

利用自然语句理解语言模型中的偏见

本文通过创建一个基于职业的自然句子语料库来评估语言模型上的偏差，与以往只使用合成数据集的研究方法有所不同，证明使用基于自然句子的提示会比基于预设模板的提示更为准确和系统化地评估性别 - 职业偏差。

May, 2022

基于提示的多任务学习中社交偏见的测量

本论文探讨了在多任务文本生成模型中，使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见，并使用两个基准测试评估了 T0 模型在其中的表现，结果表明前者会使得模型表现出更多的社会偏见。

May, 2022

小心提示偏见！研究和缓解事实知识提取中的提示偏见

该研究量化了各种类型提示的偏差，并评估了其对不同基准测试的影响。通过提出一种基于表示的方法来缓解提示偏差，研究发现该方法不仅可以纠正由提示偏差引起的过拟合性能，还可以显著提高提示检索能力。

Mar, 2024

基于软提示调节的大型语言模型偏置评估

本文探讨在情感分类任务上使用软提示调整识别大型语言模型（LLMs）如 OPT 和 Galactica 语言模型中的偏见，使用群体公平性（偏见）来检查模型偏见，并发现有趣的偏见模式，以便在实践中部署这些模型之前，识别这些偏见。

Jun, 2023

大型语言模型的社会偏见评估需求提示变化

本研究探讨了大型语言模型（LLMs）在不同提示变化下对任务表现和社会偏见的敏感性，发现 LLMs 对提示的敏感程度很高，可能导致在任务表现和社会偏见方面的模型排名波动。此外，在优化社会偏见和任务表现之间存在权衡，而高级 LLMs 的示例模糊性是导致对提示敏感性的原因之一。因此，建议使用多样化的提示来比较提示对 LLMs 社会偏见的影响。

Jul, 2024

此提示衡量 <MASK>：评估语言模型中的偏见评估

通过量化和定性分析 90 个偏见测试，本文在应用测量建模框架来创造捕捉偏见测试目标的属性分类法的基础上，揭示了偏见测试的核心概念和操作存在的不明确、含蓄、或不匹配的偏差种类及其频度，并提出指导方案，以便更全面地探索偏见空间和更全面地评估语言模型的实验设计。

May, 2023

Prompt 的简要历史：利用语言模型

本研究论文全面探索了自然语言处理领域中提示工程和生成的演变，从早期的语言模型和信息检索系统开始，追踪了多年来塑造提示工程的关键发展。

Sep, 2023

基于语法多样性提示的鲁棒自然语言生成偏差评估

通过使用不同的语法结构，本文提出了一种鲁棒的自然语言生成系统偏见评估方法，其结果显示采用语法多样性的提示可以实现更鲁棒的 NLG（偏见）评估。

Dec, 2022

针对预训练语言模型的少样本指令提示，用于检测社会偏见

提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法，该方法用少量标记过的示例和定义的偏见作为指示提供给模型，大型语言模型的检测效果十分准确。

Dec, 2021

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023