将语言模型与用户意见对齐
通过 OpinionsQA 数据集,本研究提出了一种量化框架,调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性,在包括堕胎和自动化在内的话题上,我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配,即使是明确定向于特定人口群体也是如此。
Mar, 2023
对使用大型语言模型 (LLM) 来模拟人群的偏好进行了研究和评估,包括模拟焦点小组、虚拟调查和测试行为干预的应用,以及使用两种知名精调方法对电池电动汽车 (BEVs) 偏好调查的人群进行评估。同时,还提出并评估了一种新的损失项以改善对需要数字回答的问题的模型性能。
Mar, 2024
通过整合从实证人类信念网络中提取的信息,本研究评估了如何改进基于人类行为的大型语言模型(LLM)与人类行为的一致性,结果表明在模拟和理解社会信念分布模式的工作中,将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。
Jun, 2024
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
通过 fine-tuning 机制,使用大型语言模型生成众人认可的共识性议论,以协调多样化的人类意见,并发现从子集中生成的共识性声明提高了个体贡献,并能够被人类用户所接受,具有较强的差异性和普适性。
Nov, 2022
利用定量框架和流程系统地调查大型语言模型的政治取向,研究结果显示在八个极化话题中,当用户查询涉及职业、种族或政治取向时,大型语言模型倾向于提供与自由派或左倾观点更为接近的回答,而不是保守派或右倾观点。为了避免这些模型提供政治化的回答,用户在构建查询时应谨慎,并选择中立的提示语言。
Mar, 2024
语言模型(LMs)代表某些社会群体的观点较好,可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点,现有研究主要关注定位对齐,即模型模拟不同群体(如自由派或保守派)的观点和立场的接近程度,而人类交流还包含情感和道德维度。我们定义了情感对齐问题,度量了 LMs 情感和道德色彩在代表不同群体方面的表现。通过比较 36 个 LMs 生成的回应与 Twitter 消息的情感对比,我们观察到 LMs 与意识形态群体都存在显著的不对齐问题。这种不对齐超过了美国的党派分歧。即使将 LMs 定向于特定的意识形态观点,不对齐问题和模型的自由倾向仍然存在,暗示 LMs 内存在系统偏见。
Feb, 2024
本文研究了利用大型语言模型(LLMs)来增强调查的三种不同应用程序:缺失数据插补,回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架,其中包含民意调查问题,个人信念和时间背景的神经嵌入,以个性化 LLMs 的意见预测。该研究表明,LLMs 表现出较低的精度,但最佳模型的准确率在意识形态上明显更高,可以用于填补缺失的趋势并确定公众态度的变化。但是,模型在 zero-shot 预测任务中的表现有限,强调了 LLMs 的挑战。
May, 2023
通过数据驱动的协同过滤方法,将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体,以便实现更细致、更准确地理解不同社会群体,并增强模型的可操控性。最后,我们提出了一种有效的方法来将大型语言模型导向特定的个人,并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列,从而使模型能够根据给定用户生成对应的回应。我们的结果表明,相比于一系列基准方法,我们的操控性算法具有更好的性能。
Nov, 2023
人们对语言的认知取决于个人背景,如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集,对四种常见的大型语言模型进行一系列实验,以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现,模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示,证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明,大型语言模型在主观性自然语言处理任务上存在性别和种族偏见,并且仅仅利用人口统计学提示可能无法消除这种影响。
Nov, 2023