多语言环境下的政治主张识别与分类:初步实验
本文通过研究历史语料库中编码的历时分布语义模型,重点关注两种特定形式的偏见,即政治偏见(即反共主义)和种族主义偏见(即反犹太主义),分析德国议会会议记录的新语料库,以期发现历史偏见趋势。同时,还提出了一种新的基于术语共现和基于图形标签传播的偏差度量方法。通过研究结果表明,在不同的时间段内,德国政治中存在反犹太主义和反共产主义的偏见趋势,从而证明了使用从历史语料库产生的语义空间分析历史偏见趋势的可行性。
Aug, 2021
通过对155年德国政治辩论中对妇女和移民的支持进行测量,我们提供了一个1205个文本片段的支持标准,并使用BERT模型推断大规模趋势。我们的研究结果表明,德国社会在政治精英的支持下,变得更加公正。
Oct, 2022
利用“翻译-检索-翻译”策略引入推理通识知识,然后将其整合到多语言预训练语言模型中以预测政治极性,证明我们的框架不受所使用的模型的影响,并具有潜力为新闻从业者、社会科学家、新闻制作人员和消费者带来好处。
Dec, 2022
通过对政治宣言的大规模数据库进行研究,我们展示了领域转移在地理位置、语言、时间和体裁等方面的潜力,以及细调的变压器模型在领域内的分类性能。此外,我们观察到不同来源国家的政治宣言存在(部分)显著差异,即使这些国家共享一种语言或文化背景。
Jul, 2023
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的LLM(语言模型)用于政治科学应用,并在27个欧洲议会的会议记录中进行了1.72亿专业领域词汇的预训练。通过实验证明,LLM在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
通过细分辩论领域、提取叙述模式以及使用大型语言模型生成支持性证据,可以提高叙述分类模型的效果,并且能够从少量训练样本中推断态度和角度。这种模型对依赖叙述的应用,如事实核实,具有实用价值。
Sep, 2023
计算政治学的技术之一是扩展分析,根据(通常较长的)文本集合(如议会演讲或选举宣言)给予政治参与者(如政治家或政党)一个预定义的评分。本研究通过实施和比较两种自动扩展分析政党宣言的方法:标签聚合和基于长输入的Transformer模型,对41个国家和27种语言的比较宣言项目数据集进行分析,发现最佳结果可通过先进的模型和标签聚合的方式高效解决。
Oct, 2023
使用真实新闻机构的评级,我们创建了一份多语言新闻语料库,其中包括粗略的立场注释(左翼和右翼)以及自动提取的主题注释。我们展示了使用这些数据训练的分类器能够识别英语、德语、西班牙语和加泰罗尼亚语中大部分未见过的报纸的编辑立场。我们随后将这些分类器应用于ChatGPT和Bard在四种语言中撰写的101篇类似报纸文章,并观察到,类似传统报纸,ChatGPT的编辑立场会随着时间而演变,并且作为一个数据驱动的系统,生成的文章在不同语言中的立场也有所不同。
Oct, 2023
介绍了一个关于政治取向和权力地位识别的数据集,该数据集从ParlaMint中派生而来,ParlaMint是29个国家和地区议会的一组可比较的国会演讲语料库。我们介绍了该数据集,解释了在创建过程中的一些选择原则,在数据集上提供了统计数据,并利用一个简单的分类器对政治取向在左右轴线上的预测结果以及权力地位识别的基线结果进行了介绍,即区分执政联盟党派成员和反对党派成员发表的演讲。
May, 2024