它们是否指的是 ' 我们 '? 解释不同群体偏见中的指代表达

Jun, 2024

它们是否指的是 ' 我们 '? 解释不同群体偏见中的指代表达

Do they mean 'us'? Interpreting Referring Expressions in Intergroup Bias

Venkata S Govindarajan, Matianyu Zang, Kyle Mahowald, David Beaver, Junyi Jessy Li

TL;DR通过在英语体育评论中对隶属群体内外言论（群体偏见）的模型，本文揭示了在社会现象如刻板印象延续和隐性偏见中可能存在的微妙差异。为了大规模分析群体间变化，我们使用 LLMs 进行自动标记，并发现一些 LLMs 最佳工作方式是在评论时使用语言描述赢得概率，而不是数值概率。此外，使用 LLMs 对评论进行大规模标记揭示了在不同赢得概率下区别隶属群体内外言论形式的线性变化。

Abstract

The variations between in-group and out-group speech (intergroup bias) are subtle and could underlie many social phenomena like stereotype perpetuation and implicit bias. In this paper, we model the →

intergroup bias speech tagging llms in-group and out-group utterances

发现论文，激发创造

关于人际交往的话语：建模普遍的群体偏见和情感

本文提出了一种基于情绪的方法来预测人际群体关系（IGR），研究表明微妙的情感信号表明了不同的偏见，使用美国国会成员的推文数据集，构建了一个被标注为人际情感的数据集，证明神经模型在识别 IGR 上显著优于人类。我们还发现，IGR 和人际感知情感之间的共享编码可以提高两项任务的性能。

Sep, 2022

生成式语言模型表现出社会身份偏见

调查发现现代语言模型存在基本的社会认同偏见，通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。

Oct, 2023

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024

反事实探究情感和特异性对群际偏见的影响

本文提出了一个修正过的偏见研究框架，并探讨了不同种族间社交语境下的语言行为与话语两个语用学特征之间是否存在系统地差异。研究发现推理模型可可靠地使用情感特征，但使用特定性特征的模型效果更不确定。

May, 2023

我并非他们：大型语言模型中的流动身份和持久的外群体偏见

当 ChatGPT 具有特定的社会身份时，它能够区分内外群体，拥抱内群体价值观而回避外群体价值观，表现出对外群体的负面态度，该研究在多种语言环境以及在政治领域得到了复制和确认，并提供了减轻此类偏见的关键见解。

Feb, 2024

群体地位对 LLM 生成文本中群体表现的可变性的影响

大型语言模型经常用于日常生活，但其内部机制仍然不透明。本文将研究 LLMs 中存在的偏见，特别是与社会群体的刻板属性相关的偏见，并扩展研究范围，探究 LLMs 中的另一种偏见，即社会优势群体相对于社会从属群体更具异质性的现象。本研究使用 ChatGPT，一个最先进的 LLM，生成了关于交叉群体身份的多样化文本，并比较了文本的同质性。我们一致发现，LLMs 将非洲裔、亚洲裔和拉美裔美国人描绘为比白人更具同质性。他们还描绘女性比男性更具同质性，但这些差异很小。最后，我们发现性别的影响在种族 / 民族群体中存在差异，即在非洲裔和拉美裔美国人中性别的影响是一致的，但在亚洲裔和白人中不一致。我们对 LLMs 中这种偏见的可能来源进行了推测，并指出这种偏见有可能放大未来 LLM 训练中的偏见并强化刻板印象。

Jan, 2024

呢翻叭咩意？揭露語言模型表達中的偏好偏見

大型语言模型是否表现出社会人口统计学偏见，即使他们拒绝回答？通过探索上下文嵌入，并研究这种偏见是否被编码在其潜在表示中，我们提出了一种逻辑 Bradley-Terry 探测器，从单词的隐藏向量预测 LLMs 中的单词对偏好。我们在三个偏好配对任务和十三个 LLMs 上首先验证了我们的探测器，在测试隐性联系的标准方法（WEAT）中，我们的错误率相对于 WEAT 提高了 27%。我们还发现单词对偏好在中间层中最有效。接下来，我们将训练在无害任务上的探测器（例如，选择更大的数字）转移到有争议的任务上（比较民族、政治、宗教和性别），以检查国籍、政治、宗教和性别方面的偏见。我们观察到对于所有目标类别都存在大量偏见：例如，Mistral 模型在不回答的情况下，暗示欧洲优于非洲、基督教优于犹太教、左翼优于右翼政治。这表明指示微调不一定能够削弱上下文嵌入的偏见。我们的代码库位于此 https URL

Nov, 2023

在交叉背景下评估语言模型的偏见态度关联

利用上下文词嵌入的概念投射方法，量化了英语语言模型中社会群体的情感倾向，发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度，此方法旨在研究语言模型中的历史偏见，并对设计正义做出贡献，探讨了在语言中被边缘化的群体的相关关系。

Jul, 2023

心智对口：关于测量大型语言模型中社会偏见的重新判断不一致性

近期的研究表明，预训练的大型语言模型（LLMs）具有类似于人类观察到的认知结构，促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构，即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法，并在 LLMs 中发现了一个并行现象，即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见，证实了重新判断不一致的高度稳定性。这一发现可能表明，随着 LLMs 的能力增强，不同的认知结构也会出现。因此，利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。

Aug, 2023

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023