巴尔干半岛议会辩论情感标注数据集:波黑,克罗地亚和塞尔维亚
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
该研究提供了一个句子级情感数据集,覆盖了克罗地亚新闻领域,在已有的 3000 个注释文本的基础上,增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。
May, 2023
本文通过先进的 NLP 方法,联合比较分析了保加利亚、捷克、法国、斯洛文尼亚、西班牙和英国等 6 个国家在 2017-2020 年间的议会和立法辩论记录,探讨并评估不同国家议员的观点、情感以及性别、政治取向的识别,发现分析对象之间存在许多差异和共性。
Jul, 2022
本研究使用零样本和小样本学习进行跨语言情感分析。采用三种语言的 BERT-based 模型进行语种间的情感分类,提出了一种简单多任务模型。通过单任务和多任务实验的零样本和小样本场景对克罗地亚言和斯洛文尼亚情感分析进行评估。
Dec, 2022
PerSenT 数据集包括了新闻文章中主要实体的情感分析,并提供了段落级别的情感注释以提供更精细的监督。该数据集的基准测试表明,这是一项困难的分类任务。该论文指出,使用 BERT 对文档级表示进行微调是不足够的,并且对整个文档进行段落级别的决策和聚合也是无效的。该数据集包含 5.3k 个文档和 38k 个段落,涵盖 3.2k 个独特的实体,是实体情感分析中的一个挑战。
Nov, 2020
本研究旨在为希腊语言提供情感分类,通过使用单语和多语言资源进行微调和评估 Transformers 模型,并通过在希腊议会记录中检测及研究 “厌恶” 情感,探讨了这些模型的潜力以及对使用用于污名化人的词语的情感背景转换进行了研究。
May, 2022
利用 “翻译 - 检索 - 翻译” 策略引入推理通识知识,然后将其整合到多语言预训练语言模型中以预测政治极性,证明我们的框架不受所使用的模型的影响,并具有潜力为新闻从业者、社会科学家、新闻制作人员和消费者带来好处。
Dec, 2022
介绍了一个关于政治取向和权力地位识别的数据集,该数据集从 ParlaMint 中派生而来,ParlaMint 是 29 个国家和地区议会的一组可比较的国会演讲语料库。我们介绍了该数据集,解释了在创建过程中的一些选择原则,在数据集上提供了统计数据,并利用一个简单的分类器对政治取向在左右轴线上的预测结果以及权力地位识别的基线结果进行了介绍,即区分执政联盟党派成员和反对党派成员发表的演讲。
May, 2024
本研究针对资源缺乏的巴斯克语和加泰罗尼亚语,提供了两个数据集,并提供了高质量的标注和基准,希望对研究这些语言的学者有所帮助。
Mar, 2018
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020