Oct, 2017

科学文献元数据提取的新方法

TL;DR本研究提出了一种自动、准确和灵活的算法,能够从数字化科学文章中直接提取各种元数据,包括基本文档元数据、结构化全文和参考文献部分。该算法通过在大规模、多样化的数据集上训练监督和无监督机器学习算法实现,具有较高的精度,适用于分析异构文档集合。与其他类似解决方案的比较也证明了我们的算法在大多数元数据类型上表现优于竞争对手。