基于语法多样性提示的鲁棒自然语言生成偏差评估
本文通过创建一个基于职业的自然句子语料库来评估语言模型上的偏差,与以往只使用合成数据集的研究方法有所不同,证明使用基于自然句子的提示会比基于预设模板的提示更为准确和系统化地评估性别 - 职业偏差。
May, 2022
通过系统评估多种 LLM 模型和不同提示策略的方法,我们展示出基于第二系统推理提示的复杂方法在减少偏见的平均输出中表现更好,对下游任务具有竞争性能,这为以最终用户为焦点的评估框架在 LLM 使用方面提供了研究方向和潜力。
May, 2024
在该项目中,我们探索了新兴的提示工程领域,并将其应用于检测语言模型偏见的下游任务。具体而言,我们研究如何设计能够指示 4 种不同类型偏见(性别、种族、性取向和基于宗教)的提示。我们在多个流行和公认的模型(BERT、RoBERTa 和 T5)的不同变体上应用这些提示来评估其偏见。我们提供了这些模型的比较分析,并采用两种方法进行评估:使用人的判断来决定模型预测是否存在偏见,并利用模型级别的判断(通过进一步的提示)来了解模型是否能够自我诊断其预测的偏见。
Sep, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。
Nov, 2023
本论文探讨了在多任务文本生成模型中,使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见,并使用两个基准测试评估了 T0 模型在其中的表现,结果表明前者会使得模型表现出更多的社会偏见。
May, 2022
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
本文研究了离散提示在下游自然语言推理任务中的鲁棒性,通过应用 AutoPrompt 并在两个自然语言推理数据集中测量其表现,发现尽管基于离散提示的方法对自然语言推理输入的扰动相对较为鲁棒,但对提示令牌的移动和删除等其他类型的扰动非常敏感,而且其在不同的自然语言推理数据集上的泛化能力较差。
Feb, 2023
语言模型提示优化研究表明,通过无明显意义或语法结构的自动生成的令牌序列,包括模型嵌入空间中的向量序列,通常胜过语义和语法良好的手工制作的提示。我们使用机器生成的提示来探究模型对非自然语言表达组成的输入的响应,并在多个语义任务中研究不同尺寸模型的行为,以及它们对连续和离散机器生成的提示和人工生成的自然语言提示的响应行为进行比较。即使产生相似的输出,机器生成的和人工提示通过网络处理途径触发不同的响应模式,包括不同的困惑度、不同的注意力和输出熵分布,以及不同的单元激活特征。我们提供了对不同提示类型激活的单元性质的初步洞察,表明只有自然语言提示才会引起真正的语言电路的激活。
Oct, 2023
本文探讨在情感分类任务上使用软提示调整识别大型语言模型(LLMs)如 OPT 和 Galactica 语言模型中的偏见,使用群体公平性(偏见)来检查模型偏见,并发现有趣的偏见模式,以便在实践中部署这些模型之前,识别这些偏见。
Jun, 2023
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023