利用自然语句理解语言模型中的偏见
在该项目中,我们探索了新兴的提示工程领域,并将其应用于检测语言模型偏见的下游任务。具体而言,我们研究如何设计能够指示 4 种不同类型偏见(性别、种族、性取向和基于宗教)的提示。我们在多个流行和公认的模型(BERT、RoBERTa 和 T5)的不同变体上应用这些提示来评估其偏见。我们提供了这些模型的比较分析,并采用两种方法进行评估:使用人的判断来决定模型预测是否存在偏见,并利用模型级别的判断(通过进一步的提示)来了解模型是否能够自我诊断其预测的偏见。
Sep, 2023
本文分析了影响社会偏见结果的文本补全的具体选择、度量、自动工具和抽样策略,发现在不同的实验设置下,测量偏见的实践很容易产生相互矛盾的结果,并提供了有关开放式语言生成中报告偏见的建议,从而更完整地展示给定语言模型所展示的偏见。
May, 2022
通过使用不同的语法结构,本文提出了一种鲁棒的自然语言生成系统偏见评估方法,其结果显示采用语法多样性的提示可以实现更鲁棒的 NLG(偏见)评估。
Dec, 2022
本论文探讨了在多任务文本生成模型中,使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见,并使用两个基准测试评估了 T0 模型在其中的表现,结果表明前者会使得模型表现出更多的社会偏见。
May, 2022
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
本文研究了在预训练语言模型中,关于职业性别分布如何反映在模型中,通过使用模板化句子结合特定职业性别分布数据,通过评估不同语言的模型得出结论。
Apr, 2023
语言模型提示优化研究表明,通过无明显意义或语法结构的自动生成的令牌序列,包括模型嵌入空间中的向量序列,通常胜过语义和语法良好的手工制作的提示。我们使用机器生成的提示来探究模型对非自然语言表达组成的输入的响应,并在多个语义任务中研究不同尺寸模型的行为,以及它们对连续和离散机器生成的提示和人工生成的自然语言提示的响应行为进行比较。即使产生相似的输出,机器生成的和人工提示通过网络处理途径触发不同的响应模式,包括不同的困惑度、不同的注意力和输出熵分布,以及不同的单元激活特征。我们提供了对不同提示类型激活的单元性质的初步洞察,表明只有自然语言提示才会引起真正的语言电路的激活。
Oct, 2023
通过量化和定性分析 90 个偏见测试,本文在应用测量建模框架来创造捕捉偏见测试目标的属性分类法的基础上,揭示了偏见测试的核心概念和操作存在的不明确、含蓄、或不匹配的偏差种类及其频度,并提出指导方案,以便更全面地探索偏见空间和更全面地评估语言模型的实验设计。
May, 2023
本文探讨在情感分类任务上使用软提示调整识别大型语言模型(LLMs)如 OPT 和 Galactica 语言模型中的偏见,使用群体公平性(偏见)来检查模型偏见,并发现有趣的偏见模式,以便在实践中部署这些模型之前,识别这些偏见。
Jun, 2023