呢翻叭咩意？揭露語言模型表達中的偏好偏見

Nov, 2023

呢翻叭咩意？揭露語言模型表達中的偏好偏見

What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations

Raphael Tang, Xinyu Zhang, Jimmy Lin, Ferhan Ture

TL;DR大型语言模型是否表现出社会人口统计学偏见，即使他们拒绝回答？通过探索上下文嵌入，并研究这种偏见是否被编码在其潜在表示中，我们提出了一种逻辑 Bradley-Terry 探测器，从单词的隐藏向量预测 LLMs 中的单词对偏好。我们在三个偏好配对任务和十三个 LLMs 上首先验证了我们的探测器，在测试隐性联系的标准方法（WEAT）中，我们的错误率相对于 WEAT 提高了 27%。我们还发现单词对偏好在中间层中最有效。接下来，我们将训练在无害任务上的探测器（例如，选择更大的数字）转移到有争议的任务上（比较民族、政治、宗教和性别），以检查国籍、政治、宗教和性别方面的偏见。我们观察到对于所有目标类别都存在大量偏见：例如，Mistral 模型在不回答的情况下，暗示欧洲优于非洲、基督教优于犹太教、左翼优于右翼政治。这表明指示微调不一定能够削弱上下文嵌入的偏见。我们的代码库位于此 https URL

Abstract

Do large language models (LLMs) exhibit sociodemographic biases, even when they decline to respond? To bypass their refusal to "speak," we study this research question by probing →

large language models sociodemographic biases contextualized embeddings latent representations instruction fine-tuning

发现论文，激发创造

大型语言模型在调查反应中展现人类般的社交期望偏见

通过使用大五人格调查，我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差，它会影响模型的评估和得分。这种偏差存在于所有测试的模型中，并且可能在更近期的模型中出现更严重的程度，对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。

May, 2024

通过激活转向技术研究 Llama 2 Chat 中的偏见表达

大型语言模型中存在的社会偏见，尤其是与性别、种族和宗教有关的偏见，通过激活导向法得以探测和缓解，而强化学习反馈似乎会增加模型对不同形式社会偏见的相似度，这对于提供红队（进攻方）策略以及整合拒绝向量的重要性提供了有价值的见解。

Feb, 2024

LLM 学生的政治偏好

大规模语言模型（LLMs）中嵌入的政治偏好的综合分析表明，当使用具有政治内涵的问题 / 陈述进行调查时，大多数对话型 LLMs 往往生成被大多数政治测试工具诊断为左倾观点的响应，这提供了关于政治偏好可能主要发生在 LLMs 的预训练后期、监督微调和 / 或强化学习（RL）训练阶段的有趣假设的初步证据。

Feb, 2024

探索价值偏见：LLM 模型向理想状态的偏离

一项研究发现，大型语言模型的非故意回应存在价值偏差，倾向于偏爱高价值选项，该偏差在不同领域的语言模型中都存在，并对相关应用场景选择起到影响。

Feb, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

LLM 是否表现出类似于人类的回答偏向？一项调查设计案例研究

大型语言模型在代表人类进行主观标签任务方面的潜力和限制

Nov, 2023

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

大型语言模型是否具有变色龙特性？

大型语言模型（LLMs）是否具有其自己的世界观和个性倾向？对 LLM 模型回答主观问题的模拟进行了 100 多万次，将其回答与欧洲社会调查（ESS）的真实数据进行比较，结果表明问题引导对偏见和变异的影响是基本的，突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法，如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论，在使用 LLMs 模拟个体决策或集体行为之前，分析问题引导的稳健性和变异性非常重要，因为它们的模拟能力充其量是近似的。

May, 2024

在显式无偏的大型语言模型中测量隐性偏见

通过心理学启发的 LLM 暗示联想测试偏差和 LLM 决策偏差等两项偏差测量方法，揭示了大规模语言模型中普遍存在的人类化刻板印象偏差，以及对决策任务中的微妙歧视进行检测。

Feb, 2024