May, 2024

科学出版物中的流程提取的数据增强技术

TL;DR我们提出了一种数据增强技术,用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务,通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用(1)原始句子中的特定于过程的信息,(2)角色标签相似度和(3)句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高,性能准确度提高了 12.3 个百分点(F 分数)。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。