以色列国会与推特资源
我们介绍了以色列议会辩论记录的语料库,包括从 1998 年到 2022 年以色列议会中所有主要和委员会的记录,共有 3000 万句子(超过 3.84 亿个单词)。句子注有形态 - 句法信息,并与我们编制的一个议员和派别的大数据库相关的详细元信息。我们讨论了语料库的结构和组成,以及我们应用于它的各种处理步骤。为了演示这个新颖数据集的效用,我们提出了两个使用案例。我们展示了该语料库可以用于研究政治讨论风格的历史发展,通过展示辩论中词汇丰富度随时间的减少。我们还研究了男性和女性发言人之间的一些风格差异。这些使用案例展示了该语料库揭示以色列社会重要趋势的潜力,支持语言学、政治学、传媒学、法学等领域的研究。
May, 2024
这篇论文发布了一份新编的巴斯克语议会记录文集,其中包含重度的巴斯克 - 西班牙语码转换,同时还提供了与演讲者和演讲有关的元数据,并对文本进行处理以获得命名实体和词汇。 提取元数据后,对语言使用进行了详细的语料库分析,从时间,政党和性别角度提供了有趣的见解。
May, 2022
本文通过先进的 NLP 方法,联合比较分析了保加利亚、捷克、法国、斯洛文尼亚、西班牙和英国等 6 个国家在 2017-2020 年间的议会和立法辩论记录,探讨并评估不同国家议员的观点、情感以及性别、政治取向的识别,发现分析对象之间存在许多差异和共性。
Jul, 2022
介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集,为解决无资源语言(如希腊)的大规模、历时政治话语数据而构建,可供计算语言学和政治分析使用,如研究词语用法随时间、历史事件和政党变化而变化,以及使用算法来探测语义转移。
Oct, 2022
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019
通过 NLP 管道对政治沟通领域的历史文本进行各种任务的大规模语料库使用,我们介绍了德国议会语料库(GerParCor),该语料库包含德语议会记录文本从三个世纪到四个国家的国家和联邦级别的数据,同时也包含通过 OCR 过程转换的凯尔特字提案。
Apr, 2022
本文介绍了 Arap-Tweet,这是一个涵盖阿拉伯世界 11 个地区和 16 个国家方言变体的大规模、多方言 Tweets 语料库,其中包括针对年龄、性别和方言变体的注释,并讨论了语料库的数据集合和标注方法,以及为阿拉伯语开发作者分析工具和 NLP 工具提供帮助的重要性。
Aug, 2018
本文介绍了 TweetsKB,一个公开的包含超过 15 亿推特的语料库,涵盖了近五年的时间,以及使用了成熟的 RDF/S 词汇表提取和注释了推特的元数据信息、实体、主题和情感信息。通过实体为中心的信息探索、数据集成和知识发现的用例来演示 TweetsKB 的应用。
Oct, 2018
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
本研究分析希腊,西班牙和英国国会议员的 Twitter 帖子,通过情感分析探索这些政治家的帖子是否遵循推广负面情绪以获得更高转发量的趋势,结果表明政治家的负面情绪的推文在最近时间内更广泛传播,突显情感和受欢迎程度的交集方面的有趣趋势。
Feb, 2022