将语言模型与用户意见对齐

May, 2023

Aligning Language Models to User Opinions

EunJeong Hwang, Bodhisattwa Prasad Majumder, Niket Tandon

TL;DR通过挖掘公众意见调查的数据，结合用户观点、人口统计学和意识形态信息来对 LLMs 进行定位，从而实现更好地预测各种话题下的公众观点，同时发现利用个体用户的相关过往意见可以提高预测准确性。

Abstract

An important aspect of developing llms that interact with humans is to align models' behavior to their users. It is possible to prompt an LLM into behaving as a certain persona, especially a user group or ideological persona the model captured during its pertaining stage. But, how to b

llms user alignment public opinion surveys demographics ideologies

发现论文，激发创造

语言模型反映了谁的观点？

通过 OpinionsQA 数据集，本研究提出了一种量化框架，调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性，在包括堕胎和自动化在内的话题上，我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配，即使是明确定向于特定人口群体也是如此。

Mar, 2023

使用 LLMs 模拟目标人群的信念和偏好

对使用大型语言模型 (LLM) 来模拟人群的偏好进行了研究和评估，包括模拟焦点小组、虚拟调查和测试行为干预的应用，以及使用两种知名精调方法对电池电动汽车 (BEVs) 偏好调查的人群进行评估。同时，还提出并评估了一种新的损失项以改善对需要数字回答的问题的模型性能。

Mar, 2024

超越人口统计学：利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐

通过整合从实证人类信念网络中提取的信息，本研究评估了如何改进基于人类行为的大型语言模型（LLM）与人类行为的一致性，结果表明在模拟和理解社会信念分布模式的工作中，将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。

Jun, 2024

明示和隐示的大型语言模型角色生成意见，但无法复制更深层次的认知和偏见

通过以人类为模版的角色对大型语言模型进行提示和回答问题，我们研究了这种模型在主观注释任务和信念生成任务中的表现，结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果，但在表现隐含的偏见方面通常未能达到预期。我们得出结论，大型语言模型缺乏人类思维的内在认知机制，虽然能够捕获人们言语的统计模式，但在复杂社会科学应用中可能限制其效果。

Jun, 2024

通过微调语言模型，在人类具有不同偏好的情况下寻找共识

通过 fine-tuning 机制，使用大型语言模型生成众人认可的共识性议论，以协调多样化的人类意见，并发现从子集中生成的共识性声明提高了个体贡献，并能够被人类用户所接受，具有较强的差异性和普适性。

Nov, 2022

大型语言模型的政治立场调查

利用定量框架和流程系统地调查大型语言模型的政治取向，研究结果显示在八个极化话题中，当用户查询涉及职业、种族或政治取向时，大型语言模型倾向于提供与自由派或左倾观点更为接近的回答，而不是保守派或右倾观点。为了避免这些模型提供政治化的回答，用户在构建查询时应谨慎，并选择中立的提示语言。

Mar, 2024

语言模型反映哪些人的情绪和道德情感？

语言模型（LMs）代表某些社会群体的观点较好，可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点，现有研究主要关注定位对齐，即模型模拟不同群体（如自由派或保守派）的观点和立场的接近程度，而人类交流还包含情感和道德维度。我们定义了情感对齐问题，度量了 LMs 情感和道德色彩在代表不同群体方面的表现。通过比较 36 个 LMs 生成的回应与 Twitter 消息的情感对比，我们观察到 LMs 与意识形态群体都存在显著的不对齐问题。这种不对齐超过了美国的党派分歧。即使将 LMs 定向于特定的意识形态观点，不对齐问题和模型的自由倾向仍然存在，暗示 LMs 内存在系统偏见。

Feb, 2024

AI-Augmented 调查：运用大型语言模型对全国代表性调查的意见预测

本文研究了利用大型语言模型（LLMs）来增强调查的三种不同应用程序：缺失数据插补，回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架，其中包含民意调查问题，个人信念和时间背景的神经嵌入，以个性化 LLMs 的意见预测。该研究表明，LLMs 表现出较低的精度，但最佳模型的准确率在意识形态上明显更高，可以用于填补缺失的趋势并确定公众态度的变化。但是，模型在 zero-shot 预测任务中的表现有限，强调了 LLMs 的挑战。

May, 2023

关于大型语言模型的操纵能力与基于数据的人物角色

通过数据驱动的协同过滤方法，将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体，以便实现更细致、更准确地理解不同社会群体，并增强模型的可操控性。最后，我们提出了一种有效的方法来将大型语言模型导向特定的个人，并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列，从而使模型能够根据给定用户生成对应的回应。我们的结果表明，相比于一系列基准方法，我们的操控性算法具有更好的性能。

Nov, 2023

與誰對齊？大型語言模型在主觀 NLP 任務中存在性別和種族偏見

人们对语言的认知取决于个人背景，如性别和种族。本研究利用包含不同人口背景注释的 POPQUORN 数据集，对四种常见的大型语言模型进行一系列实验，以调查它们理解群体差异和对礼貌和冒犯性的预测中的潜在偏见。结果发现，模型的预测更接近来自白人和女性参与者的标签。我们进一步探索了带有目标人口统计标签的提示，证明仅仅包含目标人口统计标签会削弱模型的性能。我们的结果表明，大型语言模型在主观性自然语言处理任务上存在性别和种族偏见，并且仅仅利用人口统计学提示可能无法消除这种影响。

Nov, 2023