构建抗议事件相关知识库的跨文本新闻语料库
本文针对社会科学应用中自动化事件提取依赖于数据集层面的评估,提出了一种具有现实意义的印度警务事件语料库,基于这个语料库通过自然问答方式进行标注并评估现成模型在句子分类、文档排序和时间聚合三个任务上的性能表现。通过这种全新的数据集评估和标注方法,可以为未来类似的社会科学语料库资源的创造指明方向。
May, 2021
本文介绍了 CrudeOilNews 的数据收集过程、标注方法学和事件类型学,旨在为经济和金融文本挖掘提供贡献性资源,通过种子数据扩充和人类协商来拓展数据集,在机器学习目的方面,训练了基本的事件提取模型。
Apr, 2022
该论文总结了 CLEF-2019 实验室的抗议新闻提取任务,表明神经网络在信息分类方面效果最佳,但在跨国环境下,尤其是中国,大多数方案的表现显著下降。
Aug, 2020
本文介绍了手工注释的一组含有 10,000 条推特的语料库,内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调,以自动提取公共报告的事件,并帮助追踪新病毒传播。通过从数百万推文中提取事件,我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库(已移除用户信息)、自动提取模型和相应的知识库。
Jun, 2020
该研究提出了一种用于事件因果关系注释的注释模式,为此构建了一个名为 Causal News Corpus(CNC)的语料库,并使用神经网络在测试集上获得了 81.20% F1 得分,CNC 是对外部语料库可转移的,也是文本挖掘研究人员的有价值资源。
Apr, 2022
使用自动化文本处理工具通过 GLOCON Gold Standard Corpus 进行训练和测试,开发并优化了可以检测新闻文章中的抗议事件、定位抗议信息并提取相关信息的工具,并根据注释手册中的规则为数据集进行手动编码。
May, 2022
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023
基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法,针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题,本研究提出了一个大规模、多领域的可信事实核查语料库,并进行了模型构建和分析。
Oct, 2019
该研究报告描述了作者参加多语言抗议事件检测的共享任务中的 ClassBases 的提交。作者使用 XLM-RoBERTa-base、mLUKE-base 和 XLM-RoBERTa-large 进行微调来进行文件分类、句子分类和标记分类。通过训练多语言模型和使用实体知识,研究者们发现大模型似乎效果更好,但代价也更高。
Jan, 2023
本文提出一种使用 Wikidata 知识库的方法来产生新闻文章的语义注释,并描述了一种语义搜索引擎,支持基于关键词的搜索和结构化数据搜索。
Apr, 2019