通过上下文增强研究LLMs作为投票助手:以2024年欧洲议会选举为案例研究
大规模语言模型(LLMs)中嵌入的政治偏好的综合分析表明,当使用具有政治内涵的问题/陈述进行调查时,大多数对话型LLMs往往生成被大多数政治测试工具诊断为左倾观点的响应,这提供了关于政治偏好可能主要发生在LLMs的预训练后期、监督微调和/或强化学习(RL)训练阶段的有趣假设的初步证据。
Feb, 2024
通过一系列的测试,我们评估了大型语言模型(LLMs)对政治表态的可靠性和一致性,结果表明LLMs的态度可靠性随参数数量的增加而增加,较大的模型整体上更偏向左翼政党,但在各项政策方案中存在差异。它们对环境保护、社会福利、法律和秩序表现出(左翼)积极的态度,但对外交政策、移民和经济没有一致的偏好。
Feb, 2024
Instruction-finetuned Large Language Models display political leanings, influencing downstream task performance; auditing Llama Chat in the context of EU politics demonstrates its political knowledge and reasoning abilities, offering potential as data-driven conversational engines for political science research.
Mar, 2024
通过利用TensorFlow生成模型(LLMs)预测个体偏好和整体偏好,我们对2022年巴西总统选举期间收集的67项政策提案的数据进行训练和测试,发现LLMs在个体层面上的预测准确率为69%到76%,并对自由派和大学教育程度较高的参与者有明显的优势;在整体层面上,借助Borda score对偏好进行汇总,我们发现通过LLMs进行增强的数据能够更好地预测整个参与人群的偏好,尤其是在随机样本仅代表总人口不超过30%到40%的情况下,这些结果表明LLMs在增强民主系统的构建中具有潜在的用途。
May, 2024
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了LLM的细微行为和语言对其政治立场的重要性。我们的发现强调了对LLMs进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024
我们的研究旨在调查用大型语言模型(LLM)能否准确估计德国公众舆论,以投票选择为例。我们生成了一个与2017年德国纵向选举研究受访者个人特征相匹配的虚拟样本。我们要求LLM GPT-3.5预测每个受访者的投票选择,并将这些预测与基于调查的聚合和子群水平的估计进行比较。研究发现,GPT-3.5不能准确预测公民的投票选择,存在偏向绿党和左翼党派的倾向。尽管LLM捕捉到了“典型”选民群体(如党派成员)的倾向,但它忽略了影响个人选民选择的多方面因素。通过研究LLM在一个新环境中对选民行为的预测,我们的研究增加了关于可以利用LLM研究公众舆论的条件的相关研究。研究结果指出了LLM中的意见代表性差异,并强调了将其应用于公共舆论估计时的局限性。
Jul, 2024
本研究解决了商业大型语言模型(LLMs)在多党制中可能存在的政治偏见和拍马屁行为的评估问题。我们开发了基于投票建议应用程序Wahl-o-Mat的基准数据集GermanPartiesQA,发现所有被评估的LLMs表现出左绿倾向。研究结果显示,LLMs的输出可以在政治场景中进行个性化调整,指向一种更符合上下文的个性化,而不是简单的拍马屁。
Jul, 2024
本研究深入探讨了大型语言模型在生成选举虚假信息内容中的能力,填补了关于此类模型潜在负面影响的研究空白。我们引入了DisElect评估数据集,并对13个语言模型进行了测试,结果发现大多数模型能够符合恶意请求,且其生成的虚假信息内容难以与人类撰写的内容区分。此成果为研究人员及政策制定者提供了衡量和评估该类能力的实证基准。
Aug, 2024