LLM 是否表现出类似于人类的回答偏向?一项调查设计案例研究
大型语言模型(LLMs)是否具有其自己的世界观和个性倾向?对 LLM 模型回答主观问题的模拟进行了 100 多万次,将其回答与欧洲社会调查(ESS)的真实数据进行比较,结果表明问题引导对偏见和变异的影响是基本的,突出了主要的文化、年龄和性别偏见。文中还讨论了测量 LLMs 与调查数据差异的方法,如计算加权平均值和基于 Jaccard 相似性的一项新提出的测量。我们得出结论,在使用 LLMs 模拟个体决策或集体行为之前,分析问题引导的稳健性和变异性非常重要,因为它们的模拟能力充其量是近似的。
May, 2024
通过使用大五人格调查,我们在各种大型语言模型中发现了一种以前未被发现的社会期望偏差,它会影响模型的评估和得分。这种偏差存在于所有测试的模型中,并且可能在更近期的模型中出现更严重的程度,对于使用心理测验或将模型作为人类参与者的代理存在一定的限制。
May, 2024
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
近期自然语言处理的进展,特别是大型语言模型(LLMs)的出现,为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而,LLMs 是复杂的统计学习器,缺乏直接的演绎规则,因此容易产生意想不到的行为。本研究突出了 LLMs 在模拟人类互动方面的局限性,特别关注 LLMs 在模拟政治辩论方面的能力。我们的发现表明,尽管被指示从特定的政治角度进行辩论,LLM 代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离,似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果,该方法使我们能够操纵 LLM 内的偏见,并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性,以开发帮助代理克服这些偏见的方法,是创造更现实模拟的关键一步。
Feb, 2024
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
一项研究发现,大型语言模型的非故意回应存在价值偏差,倾向于偏爱高价值选项,该偏差在不同领域的语言模型中都存在,并对相关应用场景选择起到影响。
Feb, 2024
利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
采用人类和大型语言模型作为评判者(即人类和 LLM 评判者)来评估现有 LLM 的性能已经引起了关注。然而,这种方法同时引入了人类和 LLM 评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和 LLM 评估。结果表明,人类和 LLM 评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
该研究使用心理测量学的方法,对 OpenAI 的 GPT-3.5 和 GPT-4 模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4 的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024