语言模型反映哪些人的情绪和道德情感？

Feb, 2024

语言模型反映哪些人的情绪和道德情感？

Whose Emotions and Moral Sentiments Do Language Models Reflect?

Zihao He, Siyi Guo, Ashwin Rao, Kristina Lerman

TL;DR语言模型（LMs）代表某些社会群体的观点较好，可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点，现有研究主要关注定位对齐，即模型模拟不同群体（如自由派或保守派）的观点和立场的接近程度，而人类交流还包含情感和道德维度。我们定义了情感对齐问题，度量了 LMs 情感和道德色彩在代表不同群体方面的表现。通过比较 36 个 LMs 生成的回应与 Twitter 消息的情感对比，我们观察到 LMs 与意识形态群体都存在显著的不对齐问题。这种不对齐超过了美国的党派分歧。即使将 LMs 定向于特定的意识形态观点，不对齐问题和模型的自由倾向仍然存在，暗示 LMs 内存在系统偏见。

Abstract

language models (LMs) are known to represent the perspectives of some social groups better than others, which may impact their performance, especially on subjective tasks such as content moderation and hate speec

language models perspectives affective alignment misalignment systemic bias

发现论文，激发创造

语言模型反映了谁的观点？

通过 OpinionsQA 数据集，本研究提出了一种量化框架，调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性，在包括堕胎和自动化在内的话题上，我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配，即使是明确定向于特定人口群体也是如此。

Mar, 2023

大型语言模型的政治立场调查

利用定量框架和流程系统地调查大型语言模型的政治取向，研究结果显示在八个极化话题中，当用户查询涉及职业、种族或政治取向时，大型语言模型倾向于提供与自由派或左倾观点更为接近的回答，而不是保守派或右倾观点。为了避免这些模型提供政治化的回答，用户在构建查询时应谨慎，并选择中立的提示语言。

Mar, 2024

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

利用大型语言模型建模情绪与伦理

本文探讨了如何将类人情感和伦理考虑整合到大型语言模型（LLM）中，并通过协作式 LLM 对八种基本人类情感进行建模，以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法，LLMs 能够进行自我评估和调整以符合伦理准则，并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成，进入共情互动和有原则决策领域的潜力，并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。

Apr, 2024

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

道德模仿：大型语言模型生成符合政治身份的道德辩护

利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Sep, 2022

用户个性化大型语言模型输出中的筛选泡和情感极化

对个人化的大型语言模型输出进行用户政治倾向性的引导，发现左倾用户更容易接收到对左派政界人物和媒体机构的正面评价，而右倾用户则更容易接收到对右派实体的正面评价。这种个人化模式会带来情感极化和过滤泡沫的风险。

Oct, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

将语言模型与用户意见对齐

通过挖掘公众意见调查的数据，结合用户观点、人口统计学和意识形态信息来对 LLMs 进行定位，从而实现更好地预测各种话题下的公众观点，同时发现利用个体用户的相关过往意见可以提高预测准确性。

May, 2023

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022