多语言环境下的政治主张识别与分类:初步实验
利用 “翻译 - 检索 - 翻译” 策略引入推理通识知识,然后将其整合到多语言预训练语言模型中以预测政治极性,证明我们的框架不受所使用的模型的影响,并具有潜力为新闻从业者、社会科学家、新闻制作人员和消费者带来好处。
Dec, 2022
通过使用语言模型分析美国政治体系中的政治极化,我们提供了对候选人立场的分析信息,以帮助选民了解其在经济、医疗保健、教育和其他社会问题上的观点,并进一步分析候选人的数据集和使用 “Longformer” 这样更强大的方式,找到每个候选人在其政治观点和背景上的最近邻。
Jan, 2023
介绍了一个关于政治取向和权力地位识别的数据集,该数据集从 ParlaMint 中派生而来,ParlaMint 是 29 个国家和地区议会的一组可比较的国会演讲语料库。我们介绍了该数据集,解释了在创建过程中的一些选择原则,在数据集上提供了统计数据,并利用一个简单的分类器对政治取向在左右轴线上的预测结果以及权力地位识别的基线结果进行了介绍,即区分执政联盟党派成员和反对党派成员发表的演讲。
May, 2024
本研究旨在解决 fine-tuned 神经语言模型在特定应用中的文本表示优化问题,结合德国政党清单,通过使用基于文档结构启发式策略、最大化党内相似性及标准化等一系列措施,实现对政党相似性的可靠预测,无需人工注释。
Oct, 2022
自动事实核查引起了过去几十年的广泛关注, 由于在线平台上虚假信息的扩散增加。本调查主要关注多语言数据和方法,讨论现有努力检测需求核查的言论。我们提出了一项综合调查,介绍了最新的多语言言论检测研究,主要涉及可验证性,优先级和相似性三个问题因素。此外,我们详细概述了现有的多语言数据集,以及存在的挑战,并提出可能的未来发展方向。
Jan, 2024
社交媒体用户通过与其他用户的互动、自发声明或参与网络社区表达其政治偏好,因此像 Twitter 这样的社交网络是研究计算科学方法在政治学习推理方面的宝贵数据源。本研究聚焦于西班牙的三个多样化地区(巴斯克地区、加泰罗尼亚和加利西亚),探索用于分析不断演变和复杂的政治格局所需的多党分类的各种方法,并将其与二元左右派方法进行比较。我们采用两步法,通过从转发中获取的无监督用户表示来进行政治倾向检测。对于由标记用户及其互动组成的新收集和筛选数据集的全面实验证明,将关系嵌入作为政治意识形态检测的表示方法,在有限的训练数据下,在二元和多党框架中都具有有效性。最后,数据可视化展示了关系嵌入捕捉复杂的组内和组间政治共鸣的能力。
Jun, 2024
CSI 是事实核查流程中的重要步骤,该文档旨在通过创建一个多语言数据集 X-CLAIM,展示基于高资源语言英语进行训练,以及使用编码器模型相比较大的生成式语言模型在低资源语言上带来的明显优势。
Oct, 2023
该研究展示了 CLEF-2018 CheckThat!自动识别和验证政治宣言的实验室概述,其中的任务 1 集中在值得检查的问题上;任务的目标是根据是否值得检查,生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法;最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。
Aug, 2018
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
在社交媒体上,政治竞选充斥着政治广告。该研究提出了一种公开可用的数据集,用于检测特定文本块和政治广告类别的内容,特定文本块和政治广告类别是符合波兰选举法的竞选基本形式。数据集包含 1,705 条人工标注的推文,标有九个类别。该数据集被用来训练神经标记器,并用于对波兰 2020 年总统选举在 Twitter 上的初步分析。
Jun, 2020