重构材料四面体:材料信息提取中的挑战
通过使用大型语言模型(LLMs)创建化学家 AI 代理程序,本研究克服了通过自动创建从自然语言文本中提取结构化数据集所面临的质量和一致性问题、可扩展性限制、以及人为错误和偏见的风险,进而简化了各种材料发现应用的机器学习数据集的编制,以及对自然语言处理工具的易用性提升。
Dec, 2023
本文研究了从科技领域出版的文章中提取表格的信息提取,针对特定的难题:材料组成提取,建立了训练数据集和 DiSCoMaT 表格数据处理框架,并取得了显著的表现。
Jul, 2022
该研究提出了一种基于自然语言处理的大规模流程,用于从材料科学文献中提取材料名称和特性,以便进行材料科学的搜索和检索。实验证明这种方法是成功的,可以用来分析材料科学的趋势,如 MoS2 等材料在中国不断增加,而在美国减少。
Jun, 2021
通过使用来自材料科学特定语言模型的自然语言嵌入作为成分和结构特征的表示方法,我们介绍了一种材料发现框架,并将其应用于热电材料,展示了原型结构的多样化推荐和识别出了未充分研究的高性能材料空间,其中包括卤化物钙钛矿、德拉福石和尖晶石结构。
May, 2023
探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力,评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集,从最初手动提取的文稿中提取所需信息,并利用材料科学家的见解进行详细的手动错误分析,以确定模型在提取所需信息时的困难之处,并提出研究方向来解决这个广泛重要的任务。
Jun, 2024
本文提出了一种利用自然语言处理技术对材料科学进行知识抽取和检索的新方法,将来自超过 950 万篇研究文章的结构化知识自动挖掘出来,并整合到一个搜索引擎中,使材料科学家能够更精确地搜索有关特定材料、属性和实验的信息。
Feb, 2023
通过机器学习和 AI 技术,提出了一个支持领域和流程知识管理,结合人工智能协作的工作台框架,以减少时间和机会成本的目的,实现化学空间探索的新型功能材料的发现。
Nov, 2022
本文介绍一项基于语言模型的自动化方法,通过自然文本连接文献与合成洞见,提高材料设计和发现速度,并展示该方法在预测钙钛矿材料先驱体和筛选新化合物方面的潜力。
Dec, 2018