Europepolls: 欧盟和英国的国家级民调数据集

Jul, 2023

Europepolls: 欧盟和英国的国家级民调数据集

Europepolls: A Dataset of Country-Level Opinion Polling Data for the European Union and the UK

PDF

Konstantinos Pitas

TL;DR构建一个开放的国家级历史民意调查数据集，以填补现有欧盟民意调查数据的不足，并为研究人员提供解析多模态数据（新闻文章、经济指标、社交媒体）和选民行为之间复杂交互的机会。

Abstract

I propose an open dataset of country-level historical opinion polling data for the european union and the UK. The →

dataset opinion polling european union historical data research opportunities

发现论文，激发创造

政治广告数据集：波兰 2020 年总统选举的使用案例

在社交媒体上，政治竞选充斥着政治广告。该研究提出了一种公开可用的数据集，用于检测特定文本块和政治广告类别的内容，特定文本块和政治广告类别是符合波兰选举法的竞选基本形式。数据集包含 1,705 条人工标注的推文，标有九个类别。该数据集被用来训练神经标记器，并用于对波兰 2020 年总统选举在 Twitter 上的初步分析。

Jun, 2020

议会会议中的多语种情感识别训练数据集 ParlaSent

本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验，重点是训练一个强大的情感分类器用于议会会议。此外，还引入了第一个领域特定的 LLM（语言模型）用于政治科学应用，并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明，LLM 在议会数据上的额外预训练可以显著提高模型的性能，尤其是在情感检测等具体领域任务上。同时，该研究显示多语言模型在未知语言上表现良好，并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献，并将其与计算机科学和计算语言学相结合。最后，它建立了一种更可靠的政治文本情感分析方法，使学者能够使用标准化的工具和技术，从比较的视角研究政治情感。

Sep, 2023

使用语言模型理解政治极化：一个数据集与方法

通过使用语言模型分析美国政治体系中的政治极化，我们提供了对候选人立场的分析信息，以帮助选民了解其在经济、医疗保健、教育和其他社会问题上的观点，并进一步分析候选人的数据集和使用 “Longformer” 这样更强大的方式，找到每个候选人在其政治观点和背景上的最近邻。

Jan, 2023

我们与他们：民粹态度、新闻偏见和情绪数据集

本文从自然语言处理的角度对政治话语任务进行了计算建模，提出了 6861 个 Reddit 评论的新数据集 Us vs.Them，并根据民粹主义态度建立了第一个大规模计算模型。该研究探讨了民粹主义心态与社会群体之间的关系，以及通常与此类态度相关的一系列情绪。通过设置两项与民粹主义态度相关的任务以及展示情感和群体识别作为辅助任务的多任务学习模型的基线，我们阐述了情感和群体识别作为辅助任务的重要性。

Jan, 2021

希腊议会议事录数据集用于计算语言学和政治分析

介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集，为解决无资源语言（如希腊）的大规模、历时政治话语数据而构建，可供计算语言学和政治分析使用，如研究词语用法随时间、历史事件和政党变化而变化，以及使用算法来探测语义转移。

Oct, 2022

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

生成与政治相关的事件数据

本文总结了政治事件数据的方法和本体，并进行一系列实验以确定深度神经网络在从新闻文本中提取政治事件方面的适用性。

Sep, 2016

一份用于政治标题目标情感分析的西班牙数据集

本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集，利用预训练的语言模型和最先进的分类算法，解决了特定领域新闻标题情感分析的问题，并公开了数据和模型。

Aug, 2022

测量语言模型中客观全球观点的代表性

通过定量评估 LLMs 引导出生成反应更类似于谁的观点的框架，将全球调查问答数据集 GlobalOpinionQA 翻译到不同语言后，模型生成的响应不一定成为说这些语言的人观点最相似的。

Jun, 2023

利用文本数据预测欧洲 GDP

评估新闻情绪指标对欧洲五个主要经济体的国内生产总值（GDP）和其他宏观经济变量的预测信息内容，结果显示这些情绪指标对宏观经济变量的预测具有显著性并且对其他实时可用的指标进行控制仍然具有稳健的预测内容。

Jan, 2024