Sep, 2023

材料图形数字化

TL;DR我们开发了 MatGD(材料图形数字化工具),该工具用于从科学图形中提取数据线。该工具的算法包括四个步骤:(1)识别子图中的图形,(2)分离轴和数据部分,(3)通过消除不相关的图形对象并与图例进行匹配来识别数据线,(4)数据提取和保存。通过对于 62,534 篇关于电池、催化和 MOFs 领域的论文进行研究,我们挖掘了 501,045 个图。令人惊讶的是,我们的工具在图例标记和文本检测方面的准确率超过 99%。此外,与其他现有的图形挖掘工具相比,它的数据线分离能力为 66%,大大高于其他工具。我们相信这个工具将成为从出版物中收集过去和未来数据的重要工具,并且这些数据可以用来训练各种可以增强材料预测和新材料发现的机器学习模型。