基于媒体观察的语言模型能预测公众舆论
本研究探讨了使用以某种观点为主导的人工智能语言模型的写作助手是否会影响用户的观点,通过在线实验发现,使用偏向一定观点的语言模型会影响用户的写作观点,推荐更加谨慎地监控和设计AI语言技术中的观点。
Feb, 2023
两项研究证明了大型语言模型可以用于模拟受到影响后的心理变化,并且支持大型语言模型具有成为影响效应模型的潜力。第一项研究测试了虚假真相效应,发现大型语言模型模拟数据和人类数据的效应模式一致;第二项研究考察了民粹主义新闻框架,发现其中一些效应与人类实验数据一致,但也存在区别。
Mar, 2023
通过 OpinionsQA 数据集,本研究提出了一种量化框架,调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性,在包括堕胎和自动化在内的话题上,我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配,即使是明确定向于特定人口群体也是如此。
Mar, 2023
本文研究了利用大型语言模型(LLMs)来增强调查的三种不同应用程序:缺失数据插补,回溯预测和零-shot预测。该论文提出了一个新的方法论框架,其中包含民意调查问题,个人信念和时间背景的神经嵌入,以个性化LLMs的意见预测。该研究表明,LLMs表现出较低的精度,但最佳模型的准确率在意识形态上明显更高,可以用于填补缺失的趋势并确定公众态度的变化。但是,模型在zero-shot预测任务中的表现有限,强调了LLMs的挑战。
May, 2023
社交媒体及其新闻推送算法对于提升构建性对话具有挑战性,本研究使用大型语言模型和基于代理模型的仿真来研究不同的新闻推送算法如何影响在线对话质量,发现新推送算法能够促进跨政治观点的建设性、非有害对话。
Oct, 2023
大型语言模型 (LLMs) 在社会科学研究中通过模拟人类感知和行为的潜力展示了其算法忠实度的概念。本研究通过利用两项具有代表性的全国性气候变化调查评估了LLMs的算法忠实度和偏差,并发现LLMs能够有效捕捉总统投票行为,但在表示全球变暖观点时遇到挑战,尤其是在没有相关协变量的情况下。GPT-4在基于人口统计和协变量的条件下表现出更好的性能,然而,在LLMs对特定群体的观点估计中存在差异,尤其是在低估黑人对全球变暖的担忧方面。尽管强调了LLMs在社会科学研究中的潜力,但这些结果强调了在使用LLMs进行调查模拟时,进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用LLMs的潜力以及解决其固有限制至关重要。
Nov, 2023
通过使用基于人口分布的人口组别信息,我们研究了语言模型在生成与人群相符合的调查回复方面的可行性,并揭示了语言模型中的社会偏见对这类模拟的影响。
Feb, 2024
通过建立新的数据集并使用九个大语言模型,本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测,结果显示基准模型和经过调整的模型之间存在显著差异,并且大语言模型在分类器角色中也显示出政治偏见,为进一步研究大语言模型政治偏见及其影响提供了一个基础。
Jun, 2024
我们的研究旨在调查用大型语言模型(LLM)能否准确估计德国公众舆论,以投票选择为例。我们生成了一个与2017年德国纵向选举研究受访者个人特征相匹配的虚拟样本。我们要求LLM GPT-3.5预测每个受访者的投票选择,并将这些预测与基于调查的聚合和子群水平的估计进行比较。研究发现,GPT-3.5不能准确预测公民的投票选择,存在偏向绿党和左翼党派的倾向。尽管LLM捕捉到了“典型”选民群体(如党派成员)的倾向,但它忽略了影响个人选民选择的多方面因素。通过研究LLM在一个新环境中对选民行为的预测,我们的研究增加了关于可以利用LLM研究公众舆论的条件的相关研究。研究结果指出了LLM中的意见代表性差异,并强调了将其应用于公共舆论估计时的局限性。
Jul, 2024
本研究针对通用大型语言模型在模拟特定领域(如环境政策舆论)时的局限性,提出了一种利用英国家庭纵向研究的数据对模型进行微调的方法。其核心发现表明,通过考虑社会人口因素,微调后的模型在捕捉不同群体间的细微差异上效果显著优于预训练模型,从而为更准确、代表性和伦理的公众情绪洞察提供了创新性解决方案。
Sep, 2024