通过上下文增强研究LLMs作为投票助手：以2024年欧洲议会选举为案例研究

Jul, 2024

通过上下文增强研究LLMs作为投票助手：以2024年欧洲议会选举为案例研究

Investigating LLMs as Voting Assistants via Contextual Augmentation: A Case Study on the European Parliament Elections 2024

HTML

PDF

Ilias Chalkidis

TL;DR评估LLM模型在预测政党立场方面的准确性，并探索通过使用RAG和自我反思等方法改进模型性能的替代方案。发现MIXTRAL模型的准确性达到82％，通过增加输入上下文可以显著提升性能，该方法仍然面临自动化方法的挑战。

Abstract

instruction-finetuned large language models exhibit unprecedented Natural Language Understanding capabilities. Recent work has been exploring political biases and political reasoning capabilities in LLMs, mainly

发现论文，激发创造

LLMs对基于Polis可伸缩性讨论的机遇与风险

研究使用大型语言模型进行Polis参与的挑战，并发现总结能力使公共意义建设得到新的有效方法，并讨论了其风险与各个方面的应用。

Jun, 2023

LLM学生的政治偏好

大规模语言模型（LLMs）中嵌入的政治偏好的综合分析表明，当使用具有政治内涵的问题/陈述进行调查时，大多数对话型LLMs往往生成被大多数政治测试工具诊断为左倾观点的响应，这提供了关于政治偏好可能主要发生在LLMs的预训练后期、监督微调和/或强化学习（RL）训练阶段的有趣假设的初步证据。

Feb, 2024

超越提示脆弱性: 评估LLMs中政治世界观的可靠性和一致性

通过一系列的测试，我们评估了大型语言模型（LLMs）对政治表态的可靠性和一致性，结果表明LLMs的态度可靠性随参数数量的增加而增加，较大的模型整体上更偏向左翼政党，但在各项政策方案中存在差异。它们对环境保护、社会福利、法律和秩序表现出（左翼）积极的态度，但对外交政策、移民和经济没有一致的偏好。

Feb, 2024

利用LLMs研究欧洲政治光谱

Instruction-finetuned Large Language Models display political leanings, influencing downstream task performance; auditing Llama Chat in the context of EU politics demonstrates its political knowledge and reasoning abilities, offering potential as data-driven conversational engines for political science research.

Mar, 2024

大型语言模型作为增强式民主的代理

通过利用TensorFlow生成模型（LLMs）预测个体偏好和整体偏好，我们对2022年巴西总统选举期间收集的67项政策提案的数据进行训练和测试，发现LLMs在个体层面上的预测准确率为69%到76%，并对自由派和大学教育程度较高的参与者有明显的优势；在整体层面上，借助Borda score对偏好进行汇总，我们发现通过LLMs进行增强的数据能够更好地预测整个参与人群的偏好，尤其是在随机样本仅代表总人口不超过30%到40%的情况下，这些结果表明LLMs在增强民主系统的构建中具有潜在的用途。

May, 2024

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了LLM的细微行为和语言对其政治立场的重要性。我们的发现强调了对LLMs进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024

大型语言模型对报纸政治取向的检测

报纸定位存在明显差异问题，需加强LLM评估，改进算法以填补该民主国家敏感问题的重大空白，并促进社区参与。

May, 2024

用语言模型估计德国公众舆论

我们的研究旨在调查用大型语言模型（LLM）能否准确估计德国公众舆论，以投票选择为例。我们生成了一个与2017年德国纵向选举研究受访者个人特征相匹配的虚拟样本。我们要求LLM GPT-3.5预测每个受访者的投票选择，并将这些预测与基于调查的聚合和子群水平的估计进行比较。研究发现，GPT-3.5不能准确预测公民的投票选择，存在偏向绿党和左翼党派的倾向。尽管LLM捕捉到了“典型”选民群体（如党派成员）的倾向，但它忽略了影响个人选民选择的多方面因素。通过研究LLM在一个新环境中对选民行为的预测，我们的研究增加了关于可以利用LLM研究公众舆论的条件的相关研究。研究结果指出了LLM中的意见代表性差异，并强调了将其应用于公共舆论估计时的局限性。

Jul, 2024

德国政党问答：评估商业大型语言模型的政治偏见和拍马屁行为

本研究解决了商业大型语言模型（LLMs）在多党制中可能存在的政治偏见和拍马屁行为的评估问题。我们开发了基于投票建议应用程序Wahl-o-Mat的基准数据集GermanPartiesQA，发现所有被评估的LLMs表现出左绿倾向。研究结果显示，LLMs的输出可以在政治场景中进行个性化调整，指向一种更符合上下文的个性化，而不是简单的拍马屁。

Jul, 2024

大型语言模型能持续生成高质量选举虚假信息内容

本研究深入探讨了大型语言模型在生成选举虚假信息内容中的能力，填补了关于此类模型潜在负面影响的研究空白。我们引入了DisElect评估数据集，并对13个语言模型进行了测试，结果发现大多数模型能够符合恶意请求，且其生成的虚假信息内容难以与人类撰写的内容区分。此成果为研究人员及政策制定者提供了衡量和评估该类能力的实证基准。

Aug, 2024