Europepolls: 欧盟和英国的国家级民调数据集
在社交媒体上,政治竞选充斥着政治广告。该研究提出了一种公开可用的数据集,用于检测特定文本块和政治广告类别的内容,特定文本块和政治广告类别是符合波兰选举法的竞选基本形式。数据集包含 1,705 条人工标注的推文,标有九个类别。该数据集被用来训练神经标记器,并用于对波兰 2020 年总统选举在 Twitter 上的初步分析。
Jun, 2020
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
通过使用语言模型分析美国政治体系中的政治极化,我们提供了对候选人立场的分析信息,以帮助选民了解其在经济、医疗保健、教育和其他社会问题上的观点,并进一步分析候选人的数据集和使用 “Longformer” 这样更强大的方式,找到每个候选人在其政治观点和背景上的最近邻。
Jan, 2023
本文从自然语言处理的角度对政治话语任务进行了计算建模,提出了 6861 个 Reddit 评论的新数据集 Us vs.Them,并根据民粹主义态度建立了第一个大规模计算模型。该研究探讨了民粹主义心态与社会群体之间的关系,以及通常与此类态度相关的一系列情绪。通过设置两项与民粹主义态度相关的任务以及展示情感和群体识别作为辅助任务的多任务学习模型的基线,我们阐述了情感和群体识别作为辅助任务的重要性。
Jan, 2021
介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集,为解决无资源语言(如希腊)的大规模、历时政治话语数据而构建,可供计算语言学和政治分析使用,如研究词语用法随时间、历史事件和政党变化而变化,以及使用算法来探测语义转移。
Oct, 2022
本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集,利用预训练的语言模型和最先进的分类算法,解决了特定领域新闻标题情感分析的问题,并公开了数据和模型。
Aug, 2022
通过定量评估 LLMs 引导出生成反应更类似于谁的观点的框架,将全球调查问答数据集 GlobalOpinionQA 翻译到不同语言后,模型生成的响应不一定成为说这些语言的人观点最相似的。
Jun, 2023
评估新闻情绪指标对欧洲五个主要经济体的国内生产总值(GDP)和其他宏观经济变量的预测信息内容,结果显示这些情绪指标对宏观经济变量的预测具有显著性并且对其他实时可用的指标进行控制仍然具有稳健的预测内容。
Jan, 2024