从材料科学合成程序中自动提取行为图
本论文介绍推出的通过标记图表达句子语义、带有经验标注的 230 个物质合成程序数据集,旨在为材料科学领域进行材料合成的自动计划和科学信息提取等方面的研究和开发提供支持。
May, 2019
本文介绍一项基于语言模型的自动化方法,通过自然文本连接文献与合成洞见,提高材料设计和发现速度,并展示该方法在预测钙钛矿材料先驱体和筛选新化合物方面的潜力。
Dec, 2018
本文提出了一种基于深度学习的序列标记器和简单启发式规则的关系抽取器的自动化机器阅读系统,通过流程图定义合成过程的表示,并从 243 篇论文实验部分创建一个关于全固态电池的合成过程的新语料库。我们的实验结果表明,序列标记器可以检测实体,宏平均 F1 分数为 0.826,同时基于规则的关系抽取器的宏平均 F1 分数为 0.887。
Feb, 2020
本文介绍了 Polycrystalline Materials Synthesis Procedures 数据集及其构建过程,以及对数据集进行自然语言处理的方法和实验结果,旨在为材料科学信息提取提供标注数据,并解决该领域中标注数据匮乏的问题。
Oct, 2022
通过使用大型语言模型(LLMs)创建化学家 AI 代理程序,本研究克服了通过自动创建从自然语言文本中提取结构化数据集所面临的质量和一致性问题、可扩展性限制、以及人为错误和偏见的风险,进而简化了各种材料发现应用的机器学习数据集的编制,以及对自然语言处理工具的易用性提升。
Dec, 2023
该研究提出了一种基于自然语言处理的大规模流程,用于从材料科学文献中提取材料名称和特性,以便进行材料科学的搜索和检索。实验证明这种方法是成功的,可以用来分析材料科学的趋势,如 MoS2 等材料在中国不断增加,而在美国减少。
Jun, 2021
提出一种无监督学习的方法,使用图表示法从烹饪食谱中提取相关信息,并通过解码图成文本进行监督,与其他方法相比,使用文本到图和图到文本的方式迭代学习图结构和参数,并通过与标注数据集的实体对比、输入和输出文本的差异对比以及与现有方法生成的图的对比来评估该方法。
Jan, 2024
研究者利用深度神经网络和 Monte Carlo Tree Search 相结合的方法,通过训练为所有有机化学反应提供未来的化合物转化路径,从而加速了药物和材料的发现,并启用完全自动的机器人合成。
Aug, 2017
提出一种新的方法 Text2Quest,将过程文本解释为交互式游戏的说明,以从材料科学论文中提取动作图形。该方法可以补充现有方法,并实现比静态文本更丰富的学习形式。
Nov, 2018
本文研究了从科技领域出版的文章中提取表格的信息提取,针对特定的难题:材料组成提取,建立了训练数据集和 DiSCoMaT 表格数据处理框架,并取得了显著的表现。
Jul, 2022