揭示大型语言模型中的细粒度值和观点

Jun, 2024

揭示大型语言模型中的细粒度值和观点

Revealing Fine-Grained Values and Opinions in Large Language Models

Dustin Wright, Arnav Arora, Nadav Borenstein, Srishti Yadav, Serge Belongie...

TL;DR通过分析大量的语言模型响应，我们发现大量语言模型的回应以及它们的正当性存在偏见和不一致性，此外，通过对回应的分析还发现了在不同情境下产生相似正当性的模式。

Abstract

Uncovering latent values and opinions in large language models (LLMs) can help identify biases and mitigate potential harm. Recently, this has been approached by presenting LLMs with survey questions and quantify

large language models biases stances political compass test plain text rationales

发现论文，激发创造

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

政治方位图还是旋转箭头？朝着更有意义的大型语言模型价值观与观点评估

通过对多个选择性调查和问卷调查进行评估，很多最近的工作旨在评估大型语言模型（LLMs）中的价值观和观点。然而，实际应用中的真实关注与当前评估方法的人为性质形成了鲜明的对比。本文挑战了现有基于约束的 LLMs 价值观和观点评估范式，并探索更真实的无约束评估。以政治罗盘测试（PCT）为案例研究，我们发现大多数先前使用 PCT 的工作都要求模型遵守 PCT 的多选题格式。我们展示了当模型不被强迫时，模型给出的答案会有实质性的不同；答案会根据模型的强迫方式而改变；并且答案缺乏改写的稳健性。然后，我们展示了在更真实的开放性回答环境中，模型再次给出了不同的答案。我们将这些发现总结为在 LLMs 的价值观和观点评估中的建议和开放性挑战。

Feb, 2024

大型语言模型的政治立场调查

利用定量框架和流程系统地调查大型语言模型的政治取向，研究结果显示在八个极化话题中，当用户查询涉及职业、种族或政治取向时，大型语言模型倾向于提供与自由派或左倾观点更为接近的回答，而不是保守派或右倾观点。为了避免这些模型提供政治化的回答，用户在构建查询时应谨慎，并选择中立的提示语言。

Mar, 2024

超越提示脆弱性：评估 LLMs 中政治世界观的可靠性和一致性

通过一系列的测试，我们评估了大型语言模型（LLMs）对政治表态的可靠性和一致性，结果表明 LLMs 的态度可靠性随参数数量的增加而增加，较大的模型整体上更偏向左翼政党，但在各项政策方案中存在差异。它们对环境保护、社会福利、法律和秩序表现出（左翼）积极的态度，但对外交政策、移民和经济没有一致的偏好。

Feb, 2024

LLM 学生的政治偏好

大规模语言模型（LLMs）中嵌入的政治偏好的综合分析表明，当使用具有政治内涵的问题 / 陈述进行调查时，大多数对话型 LLMs 往往生成被大多数政治测试工具诊断为左倾观点的响应，这提供了关于政治偏好可能主要发生在 LLMs 的预训练后期、监督微调和 / 或强化学习（RL）训练阶段的有趣假设的初步证据。

Feb, 2024

量化大型语言模型中的政治偏见：言论内容及言辞方式调查

我们提出通过分析 LLMs 生成内容中关于政治问题的内容和风格来衡量政治偏见。我们的提议旨在提供 LLMs 生成的政治偏见的细致和可解释的度量方法，以向用户提供透明度。我们的研究关注不同的政治问题，如生殖权和气候变化，并从内容和风格两个方面测量政治偏见，以展示我们的框架的可扩展性和可解释性。

Mar, 2024

分析对数据选择和微调对 LLMs 中的经济和政治偏见的影响

本研究探究了大型语言模型中的经济和政治偏见以及调整细节对其产生的影响，通过使用参数效率微调技术，我们介绍了一种系统的数据集选择、注释和指令调整方法，并通过定量和定性评估评估其有效性，旨在讨论 AI 的道德应用，强调将 AI 部署在符合社会价值观的方式上的重要性。

Apr, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

以多样的政治观点对齐大型语言模型

通过使用 100,000 个瑞士国会候选人的评论，将大型语言模型与不同政治观点对齐，从而克服 ChatGPT 等商业模型的政治偏见，并提出了使用这种模型生成多个观点的平衡概述的方法。

Jun, 2024

CommunityLM: 从语言模型中探究党派世界观

利用社区语言模型，研究政治言论语言化的分歧，通过观察群体在社交媒体中的表达，详细分析不同派别的观点，并且发现了相对于其他方法更高的对比度。

Sep, 2022