HoneyBee: 大规模语言模型在材料科学中的渐进式教学微调
本文提出了MatSci-NLP标准,旨在评估自然语言处理模型在材料科学文本上的性能,其中包括命名实体识别和关系分类等传统NLP任务以及涉及创建材料合成程序的特定于材料科学的NLP任务。作者的实验结果表明,预先训练的模型对科学文本的理解优于对一般文本的BERT模型训练,并提出了一种基于问题回答方法的NLP多任务学习方法,其性能优于传统的微调方法。
May, 2023
我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析:金和安迪的“氧化物材料机器学习和编码合成参数”和西托扬的“无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨,代码可复现,获得了明确的模型评估指导;然而,还存在改进的空间,如尽可能提供训练数据的访问权限,提供更多关于模型架构和训练过程的透明度,以及规定软件依赖版本。
Jul, 2023
我们基于材料学领域的650个具有挑战性的问题,对GPT-3.5和GPT-4模型在问答、零点提示和思维链激励下的表现进行了评估,并发现GPT-4的准确率最高(约为62%),而与思维链激励相比,没有明显的准确率提高。通过错误分析,我们发现概念错误(64%)是改进语言模型表现的主要因素,而计算错误(36%)对LLMs性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定LLMs的开发和信息提取策略的研究。
Aug, 2023
本文介绍了一种专门用于材料科学的聊天机器人的开发,利用了Llama-2语言模型,并在S2ORC数据集中的广阔研究论文上继续进行预训练。该方法包括对100万多个领域特定论文进行初步预训练,然后通过指令调整过程来改进聊天机器人的能力。该聊天机器人旨在通过为材料科学领域的查询提供即时的、上下文感知的回复,来帮助研究人员、教育工作者和学生。我们提供了四个经过训练的检查点(7B、13B,具有或不具有聊天功能),供研究社区免费使用。
Jan, 2024
评估先进的大型语言模型(LLMs)在材料科学领域的科学文档中提取结构化信息的能力,并引入了一种比较分析复杂材料表述的新方法,重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs在指定的两个关键任务中展现出不同的表现:对于命名实体识别(NER)任务,LLMs未能超越基准模型和规则基模型,对于关系抽取(RE)任务,经过适当策略的GPT-3.5-Turbo优于所有模型,而GPT-4和GPT-4-Turbo在没有经过任何调优的情况下,在仅提供几个示例的情况下展示出出色的推理和关系抽取能力,超越了基准模型。总体而言,结果表明,虽然LLMs在连接概念方面展示出相关的推理能力,但对于需要提取复杂领域特定实体(如材料)的任务来说,专门的模型目前是更好的选择。
Jan, 2024
基于材料科学知识和假设生成及假设测试,我们描述了材料科学LLMs的框架,以及构建大规模多模态数据集的挑战和应用MatSci-LLMs进行材料发现的路线图。
Feb, 2024
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。
Mar, 2024
通过MatText套件中的基准测试工具和数据集,我们对语言模型在材料建模方面的性能进行了广泛分析,结果显示这些模型在捕捉关键的材料几何信息方面存在困难,而在某些新颖的表示方法中强调使用局部信息。我们的分析突显出了基于文本方法在材料设计中存在的不足之处。
Jun, 2024
本研究针对传统大型语言模型在材料科学任务中的局限性,提出了HoneyComb,一个专门为材料科学设计的LLM代理系统。通过结合高质量的材料科学知识库(MatSciKB)和先进的工具中心(ToolHub),HoneyComb能显著提高材料科学任务的推理和计算能力,并在多个任务中显著超越基线模型,展现出其在推动科学研究和应用中的广泛潜力。
Aug, 2024
本研究构建了一个针对大型语言模型(LLMs)在材料科学领域的大学水平基准数据集MaterialBENCH,旨在评估其解决相关问题的能力。通过实验,本研究发现不同类型问题的表现差异,并讨论了如何提高模型在复杂问题解决上的推理能力,从而推动材料研究和发现的进展。
Sep, 2024