情感分类分析希腊议会记录
介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集,为解决无资源语言(如希腊)的大规模、历时政治话语数据而构建,可供计算语言学和政治分析使用,如研究词语用法随时间、历史事件和政党变化而变化,以及使用算法来探测语义转移。
Oct, 2022
本研究介绍了一个新的,用于识别希腊话剧中情感的公共数据集 GreThE,并通过各种机器和深度学习框架以及一些在情感识别领域中广泛使用的数据库的实验结果来讨论该分类技术。通过在希腊话剧中获取多个讲话记录并进行多人注释,最终生成了真实情感分类数据。
Mar, 2022
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
该研究是关于情绪极性检测在历史拉丁文本中的应用,结合启发式标签和 GPT4 生成标签的监督学习方法,使用参数高效微调和适配器框架,通过 LLM 生成的标签在情绪极性检测任务中取得了第一名的优异成绩,结果表明 LLM 标注对拉丁文本具有良好的潜力。
May, 2024
本文旨在评估和比较两种标记好的波斯语情感数据集(EmoPars 和 ArmanEmo)的性能,并通过使用数据增强技术、数据再平衡、类别权重和 Transformer-based Pretrained Language Models 等方法,解决数据不平衡问题,并提供了一种从高置信度样本中选择数据的策略,并在这些数据集上实现了 F1 分数的最优结果。
Nov, 2022
本文通过先进的 NLP 方法,联合比较分析了保加利亚、捷克、法国、斯洛文尼亚、西班牙和英国等 6 个国家在 2017-2020 年间的议会和立法辩论记录,探讨并评估不同国家议员的观点、情感以及性别、政治取向的识别,发现分析对象之间存在许多差异和共性。
Jul, 2022
本文旨在对泰米尔社交媒体评论进行情感分析,包括 11 个和 31 个特定类别的情感,通过使用转换器模型、循环神经网络和集成模型三种方法解决该问题,其中 XLM-RoBERTa 在第一个任务中表现最佳,宏平均 f1 得分为 0.27,而 MuRIL 在第二个任务中提供了最佳结果,宏平均 f1 得分为 0.13。
Apr, 2022
通过众包的方式,我们发布了一个数据集,包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标,以及读者对标题情感的感知;在此基础上,我们提出了一个多阶段的注释程序,开发了语义角色结构自动预测任务的基线,并讨论了结果,此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。
Dec, 2019
介绍了一个关于政治取向和权力地位识别的数据集,该数据集从 ParlaMint 中派生而来,ParlaMint 是 29 个国家和地区议会的一组可比较的国会演讲语料库。我们介绍了该数据集,解释了在创建过程中的一些选择原则,在数据集上提供了统计数据,并利用一个简单的分类器对政治取向在左右轴线上的预测结果以及权力地位识别的基线结果进行了介绍,即区分执政联盟党派成员和反对党派成员发表的演讲。
May, 2024