Feb, 2024

语言模型反映哪些人的情绪和道德情感?

TL;DR语言模型(LMs)代表某些社会群体的观点较好,可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点,现有研究主要关注定位对齐,即模型模拟不同群体(如自由派或保守派)的观点和立场的接近程度,而人类交流还包含情感和道德维度。我们定义了情感对齐问题,度量了 LMs 情感和道德色彩在代表不同群体方面的表现。通过比较 36 个 LMs 生成的回应与 Twitter 消息的情感对比,我们观察到 LMs 与意识形态群体都存在显著的不对齐问题。这种不对齐超过了美国的党派分歧。即使将 LMs 定向于特定的意识形态观点,不对齐问题和模型的自由倾向仍然存在,暗示 LMs 内存在系统偏见。