MaterioMiner - 基于本体的文本挖掘数据集,用于提取过程-结构-性质实体
本论文介绍推出的通过标记图表达句子语义、带有经验标注的230个物质合成程序数据集,旨在为材料科学领域进行材料合成的自动计划和科学信息提取等方面的研究和开发提供支持。
May, 2019
本文介绍了在材料科学文献数据的基础上训练的一种面向材料科学领域的语言模型MatSciBERT,并对其在抽象分类、命名实体识别和关系提取等领域的性能进行了评价。结果表明MatSciBERT在这些任务中具有优异的表现,可用于提取材料领域的信息以推动材料的发现或优化。同时我们提供MatSciBERT的预训练和微调权重,以及模型的免费访问权。
Sep, 2021
本文介绍了 Polycrystalline Materials Synthesis Procedures 数据集及其构建过程,以及对数据集进行自然语言处理的方法和实验结果,旨在为材料科学信息提取提供标注数据,并解决该领域中标注数据匮乏的问题。
Oct, 2022
通过预先训练的语言模型 GPT-3,我们提出了一种简单的序列到序列方法来联合提取科学文本中的复杂层次信息的命名实体识别和关系抽取,并证明了这种方式能够准确提取复杂科学知识的有用记录。
Dec, 2022
本文提出了MatSci-NLP标准,旨在评估自然语言处理模型在材料科学文本上的性能,其中包括命名实体识别和关系分类等传统NLP任务以及涉及创建材料合成程序的特定于材料科学的NLP任务。作者的实验结果表明,预先训练的模型对科学文本的理解优于对一般文本的BERT模型训练,并提出了一种基于问题回答方法的NLP多任务学习方法,其性能优于传统的微调方法。
May, 2023
提供了一个包含50篇开放获取文章的新数据集MuLMS,跨越了材料科学的七个子领域,通过多任务训练与相关资源结合,展示了适用于所有任务的竞争神经模型的效果。
Oct, 2023
评估先进的大型语言模型(LLMs)在材料科学领域的科学文档中提取结构化信息的能力,并引入了一种比较分析复杂材料表述的新方法,重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs在指定的两个关键任务中展现出不同的表现:对于命名实体识别(NER)任务,LLMs未能超越基准模型和规则基模型,对于关系抽取(RE)任务,经过适当策略的GPT-3.5-Turbo优于所有模型,而GPT-4和GPT-4-Turbo在没有经过任何调优的情况下,在仅提供几个示例的情况下展示出出色的推理和关系抽取能力,超越了基准模型。总体而言,结果表明,虽然LLMs在连接概念方面展示出相关的推理能力,但对于需要提取复杂领域特定实体(如材料)的任务来说,专门的模型目前是更好的选择。
Jan, 2024
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。
Mar, 2024
通过利用先进的自然语言处理技术,从过去十年中所有高质量研究论文中提取数百万个三元组,将无结构信息组织为九个不同类别的标签,并与论文的数字物体识别符无缝集成,Functional Materials Knowledge Graph(FMKG)作为最新的功能材料结构数据库,为加速功能材料开发和构建更全面的材料知识图谱奠定了基础。同时,我们的研究为实用的基于文本挖掘的知识管理系统奠定了基础,不仅适用于复杂材料系统,也适用于其他专业领域。
Apr, 2024
本研究解决了现有化学本体(如ChEBI)覆盖范围有限且无引用文献的问题。我们提出了一种新的方法,通过结合知识库与大语言模型(LLM)的语言理解能力,自动识别科学文献中的化学实体及其角色,并构建了创新的知识图谱(CEAR),为现有本体提供了补充信息,具有重要的扩展潜力。
Jul, 2024