RaFoLa: 检测强制劳动指标的基于理由注释的语料库
基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法,针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题,本研究提出了一个大规模、多领域的可信事实核查语料库,并进行了模型构建和分析。
Oct, 2019
我们提供了一个被 8 名注解者使用 11 个标签注释的 100 份文件的语料库,该文件语料库从 17 个被专家机构认为不可靠的法国新闻来源中选取。通过收集比通常更多的标签和注解者,我们可以确定人类认为是伪新闻特征,并将其与自动分类器的预测进行比较。我们使用 Gate Cloud 进行主题和体裁分析,显示语料库中类似讽刺的文本的普遍性。然后,我们使用主观性分析器 VAGO 以及其神经版本,以澄清主观标签和伪新闻标签之间的关联。可在以下 URL 在线获取注释数据集:this https URL
Mar, 2024
本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型,可自动预测法律文档中的修辞角色,进而提高摘要和法律判决预测的性能,并在本文中发布了此语料库和基线模型代码。
Jan, 2022
通过新的基于模型的方法,我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式,从而最大程度地减少注释数量,并且几乎不损失知识,同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求,并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系,此外,对于某些数据集,仅依靠我们模型预测的标签进行训练,可作为自监督学习规范化技术,提高任务选择的效率。
Dec, 2023
本文介绍了第一份带有注释的种族屠杀相关法庭记录的语料库 GTC,并运用最新的基于 transformer 的方法建立了段落标识及暴力相关证词提取的基准性能用于分类任务,探索了领域内的迁移学习。
Apr, 2022
通过众包的方式,我们发布了一个数据集,包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标,以及读者对标题情感的感知;在此基础上,我们提出了一个多阶段的注释程序,开发了语义角色结构自动预测任务的基线,并讨论了结果,此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。
Dec, 2019
许多资源匮乏的语言需要具有高质量的特定任务数据集,例如辱骂语言检测、虚假消息或错误信息识别。本文从乌克兰推文的伪标记敏感数据的方法出发,重新审视了使用该方法的过程,重点关注俄乌战争相关主题。通过实验,突出了数据标注的三个主要阶段,并强调了机器标注过程中的主要障碍。最终,我们对获得的数据进行了基础统计分析,并对用于伪标记的模型进行了评估,提供了进一步指导,以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。
Nov, 2023
提供了一种黄金标准语料库,其中包含各种国家的各种本地和国际来源,用于自动分类新闻文章和提取与抗议事件相关的信息,并在社会和政治科学研究中构建知识库。
Aug, 2020
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023