Nov, 2023

PolyIE: 从高分子材料科学文献中的信息提取数据集

TL;DR科学信息提取(SciIE)的重要性日益增长,然而,对于聚合物材料这一广泛应用于我们日常生活中的重要类材料,目前尚未存在任何 SciIE 数据集。为了填补这一空白,我们介绍了 POLYIE,一个面向聚合物材料的新的 SciIE 数据集。POLYIE 由 146 篇全文聚合物学术文章组成,由领域专家对命名实体(即材料、性质、数值、条件)以及它们的 N 元关系进行了标注。POLYIE 存在多样的实体词汇格式、实体之间的歧义和长度可变的关系等独特挑战。我们评估了最先进的命名实体提取和关系提取模型在 POLYIE 上的表现,分析了它们的优势和劣势,并针对这些模型提出了一些困难样例。据我们所知,POLYIE 是面向聚合物材料的首个 SciIE 基准,我们希望它能促使社区对这项具有挑战性的任务进行更多的研究努力。我们的代码和数据可以在此 https URL 上获取。