构建抗议事件相关知识库的跨文本新闻语料库

Aug, 2020

构建抗议事件相关知识库的跨文本新闻语料库

Cross-context News Corpus for Protest Events related Knowledge Base Construction

Ali Hürriyetoğlu, Erdem Yörük, Deniz Yüret, Osman Mutlu, Çağrı Yoltar...

TL;DR提供了一种黄金标准语料库，其中包含各种国家的各种本地和国际来源，用于自动分类新闻文章和提取与抗议事件相关的信息，并在社会和政治科学研究中构建知识库。

Abstract

We describe a gold standard corpus of protest events that comprise of various local and international sources from various countries in English. The →

protest events machine learning text classification event extraction corpus

发现论文，激发创造

事件问答的语料库层次评估：涉及 2002 年古吉拉特邦暴力事件的 IndiaPoliceEvents 语料库

本文针对社会科学应用中自动化事件提取依赖于数据集层面的评估，提出了一种具有现实意义的印度警务事件语料库，基于这个语料库通过自然问答方式进行标注并评估现成模型在句子分类、文档排序和时间聚合三个任务上的性能表现。通过这种全新的数据集评估和标注方法，可以为未来类似的社会科学语料库资源的创造指明方向。

May, 2021

CrudeOilNews: 带事件抽取的原油新闻注释语料库

本文介绍了 CrudeOilNews 的数据收集过程、标注方法学和事件类型学，旨在为经济和金融文本挖掘提供贡献性资源，通过种子数据扩充和人类协商来拓展数据集，在机器学习目的方面，训练了基本的事件提取模型。

Apr, 2022

CLEF 2019 实验室 ProtestNews 概述：在跨环境设置中从新闻中提取抗议信息

该论文总结了 CLEF-2019 实验室的抗议新闻提取任务，表明神经网络在信息分类方面效果最佳，但在跨国环境下，尤其是中国，大多数方案的表现显著下降。

Aug, 2020

从社交媒体中提取 COVID-19 事件的知识库

本文介绍了手工注释的一组含有 10,000 条推特的语料库，内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调，以自动提取公共报告的事件，并帮助追踪新病毒传播。通过从数百万推文中提取事件，我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库（已移除用户信息）、自动提取模型和相应的知识库。

Jun, 2020

因果新闻语料库：标注新闻事件句中的因果关系

该研究提出了一种用于事件因果关系注释的注释模式，为此构建了一个名为 Causal News Corpus（CNC）的语料库，并使用神经网络在测试集上获得了 81.20％ F1 得分，CNC 是对外部语料库可转移的，也是文本挖掘研究人员的有价值资源。

Apr, 2022

全球争议性政治数据库（GLOCON）标注手册

使用自动化文本处理工具通过 GLOCON Gold Standard Corpus 进行训练和测试，开发并优化了可以检测新闻文章中的抗议事件、定位抗议信息并提取相关信息的工具，并根据注释手册中的规则为数据集进行手动编码。

May, 2022

英文新闻文章句子级主观性检测语料库

该研究介绍了一个用于句子级别主体性检测的新语料库，其中包括英语政治事务的主观句子和客观句子，同时开发了新的标注指南和使用最新的多语言转换模型，使得该语料库能够用于英语和其他语言的主体性检测，并在其他语言丰富资源的情况下，提高了该任务的结果。

May, 2023

自动事实检查中不同任务的丰富注释语料库

基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法，针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题，本研究提出了一个大规模、多领域的可信事实核查语料库，并进行了模型构建和分析。

Oct, 2019

CASE-2022 多语言抗议活动检测任务中的 ClassBases 模型：多语言抗议新闻检测和自动复制手动创建的事件数据集

该研究报告描述了作者参加多语言抗议事件检测的共享任务中的 ClassBases 的提交。作者使用 XLM-RoBERTa-base、mLUKE-base 和 XLM-RoBERTa-large 进行微调来进行文件分类、句子分类和标记分类。通过训练多语言模型和使用实体知识，研究者们发现大模型似乎效果更好，但代价也更高。

Jan, 2023

利用 Wikidata 支持的事件知识图谱搜索新闻文章

本文提出一种使用 Wikidata 知识库的方法来产生新闻文章的语义注释，并描述了一种语义搜索引擎，支持基于关键词的搜索和结构化数据搜索。

Apr, 2019