标记人设：使用自然语言提示来测量语言模型中的刻板印象

ACLMay, 2023

标记人设：使用自然语言提示来测量语言模型中的刻板印象

Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models

Myra Cheng, Esin Durmus, Dan Jurafsky

TL;DR本文提出了基于提示的标记人物法（Marked Personas），其使用无词库或数据标注的方法来测量具有交叉社会群体的 LLMs 中的刻板印象，结果显示 GPT-3.5 和 GPT-4 生成的叙述比使用相同提示的人类撰写的叙述包含更多种族刻板印象。同时，对于边缘化群体的描绘也存在特定模式，例如热带化和社会萎缩化。这些代表性的伤害对于像故事生成之类的下游应用具有令人担忧的影响。

Abstract

To recognize and mitigate harms from large language models (LLMs), we need to understand the prevalence and nuances of stereotypes in LLM outputs. Toward this end, we present →

large language models stereotypes marked personas intersectionality representational harms

发现论文，激发创造

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Nov, 2023

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024

量化 LLM 模拟中的人物效应

使用大型语言模型（LLMs）和个性变量在现有主观 NLP 数据集中模拟不同视角方面，发现个性变量通过提示在 LLMs 中的应用能提供适度的改善，但在解释人类标注中的作用较低（<10%）时，个性提示的效果很小，这对当前 NLP 领域中模拟多样性的可行性产生了质疑。

Feb, 2024

LLM 模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4 的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

如何（不）将社会人口信息用于主观 NLP 任务

注释者的社会人口背景对主观 NLP 任务的决策产生很大影响。社会人口提示是一种技术，用于将基于提示的模型的输出指引到具有特定社会人口特征的人会给出的答案。本研究通过对七个数据集和六个模型系列进行评估，得出了几个关键发现，并提出使用社会人口提示来识别不明确的实例，从而进行更加明智的注释工作。

Sep, 2023

从大型语言模型中我们能提取多少种不同的观点？基于评判标准的多样性激励！

调查了大型语言模型（LLMs）在生成多样化观点和理由方面的能力，提出了一种基于标准提示技术来衡量透视多样性的方法，并发现利用句子嵌入和距离度量来衡量语义多样性是不够的。研究结果表明，LLMs 能够根据任务主观性的程度产生多样的观点。

Nov, 2023

关于大型语言模型的操纵能力与基于数据的人物角色

通过数据驱动的协同过滤方法，将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体，以便实现更细致、更准确地理解不同社会群体，并增强模型的可操控性。最后，我们提出了一种有效的方法来将大型语言模型导向特定的个人，并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列，从而使模型能够根据给定用户生成对应的回应。我们的结果表明，相比于一系列基准方法，我们的操控性算法具有更好的性能。

Nov, 2023