Sep, 2023

科学文献高质量结构化数据提取的半自动分阶段区域

TL;DR我们提出了一个用于整合新型超导体实验数据的暂存区,其数据是从科学文章中机器收集而来。我们采用自动和手动的工作流程来提高SuperCon更新的效率,同时保持或提高数据质量。我们的暂存区包括异常检测自动过程和适用于原始PDF文件的用户界面,用户可以手动纠正任何错误,并收集和利用纠正后的数据来改善机器学习模型的训练数据。评估实验证明,我们的暂存区显著提高了数据的整理质量。与传统的手动阅读PDF文档并在Excel文档中记录信息的方式进行对比,使用我们的界面可以将精确度和召回率分别提高6%和50%,平均F1-score增加了40%。