RaFoLa: 检测强制劳动指标的基于理由注释的语料库

May, 2022

RaFoLa: 检测强制劳动指标的基于理由注释的语料库

RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced Labour

Erick Mendez Guzman, Viktor Schlegel, Riza Batista-Navarro

TL;DR本研究提供第一个公开可访问的英文语料库，其中包括了由专业数据源检索到的 989 篇新闻文章，并根据 ILO 的风险指标对其进行了注释。对于每篇新闻文章，都进行了两个方面的注释：强迫劳动的指标作为分类标签和证明标注决策的文本片段。数据集可促进关于多类别和多标签文本分类的可解释性的研究。

Abstract

forced labour is the most common type of modern slavery, and it is increasingly gaining the attention of the research and social community. Recent studies suggest that →

forced labour modern slavery artificial intelligence data set text classification

发现论文，激发创造

自动事实检查中不同任务的丰富注释语料库

基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法，针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题，本研究提出了一个大规模、多领域的可信事实核查语料库，并进行了模型构建和分析。

Oct, 2019

一份包含人类和机器洞见的法国虚假新闻多标签数据集

我们提供了一个被 8 名注解者使用 11 个标签注释的 100 份文件的语料库，该文件语料库从 17 个被专家机构认为不可靠的法国新闻来源中选取。通过收集比通常更多的标签和注解者，我们可以确定人类认为是伪新闻特征，并将其与自动分类器的预测进行比较。我们使用 Gate Cloud 进行主题和体裁分析，显示语料库中类似讽刺的文本的普遍性。然后，我们使用主观性分析器 VAGO 以及其神经版本，以澄清主观标签和伪新闻标签之间的关联。可在以下 URL 在线获取注释数据集：this https URL

Mar, 2024

用于自动化结构化法律文件的语料库

本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型，可自动预测法律文档中的修辞角色，进而提高摘要和法律判决预测的性能，并在本文中发布了此语料库和基线模型代码。

Jan, 2022

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

关于种族灭绝相关的法庭记录中基于主题的段落分类的新数据集

本文介绍了第一份带有注释的种族屠杀相关法庭记录的语料库 GTC，并运用最新的基于 transformer 的方法建立了段落标识及暴力相关证词提取的基准性能用于分类任务，探索了领域内的迁移学习。

Apr, 2022

GoodNewsEveryone：一份新闻标题语料库，涵盖情感、语义角色和读者感知的注释

通过众包的方式，我们发布了一个数据集，包括了 5000 个英文新闻标题的情感、情感体验者和文本线索、相关情感原因和目标，以及读者对标题情感的感知；在此基础上，我们提出了一个多阶段的注释程序，开发了语义角色结构自动预测任务的基线，并讨论了结果，此数据集支持进一步情感分类、情感强度预测、情感原因检验和定性研究。

Dec, 2019

当涉及言语问题时：重新审视标记敏感内容的方法

许多资源匮乏的语言需要具有高质量的特定任务数据集，例如辱骂语言检测、虚假消息或错误信息识别。本文从乌克兰推文的伪标记敏感数据的方法出发，重新审视了使用该方法的过程，重点关注俄乌战争相关主题。通过实验，突出了数据标注的三个主要阶段，并强调了机器标注过程中的主要障碍。最终，我们对获得的数据进行了基础统计分析，并对用于伪标记的模型进行了评估，提供了进一步指导，以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。

Nov, 2023

计算立场检测的多标签和多目标机器注释采样

研究了利用大型语言模型进行自动标注来进行计算立场检测，引入了多标签和多目标采样策略以优化标注质量，实验证明该方法能明显提高性能和学习效果。

Nov, 2023

构建抗议事件相关知识库的跨文本新闻语料库

提供了一种黄金标准语料库，其中包含各种国家的各种本地和国际来源，用于自动分类新闻文章和提取与抗议事件相关的信息，并在社会和政治科学研究中构建知识库。

Aug, 2020

英文新闻文章句子级主观性检测语料库

该研究介绍了一个用于句子级别主体性检测的新语料库，其中包括英语政治事务的主观句子和客观句子，同时开发了新的标注指南和使用最新的多语言转换模型，使得该语料库能够用于英语和其他语言的主体性检测，并在其他语言丰富资源的情况下，提高了该任务的结果。

May, 2023