评估大语言模型在材料科学中的性能与稳健性：问答与属性预测

Sep, 2024

评估大语言模型在材料科学中的性能与稳健性：问答与属性预测

Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions

Hongchen Wang, Kangming Li, Scott Ramsay, Yao Fehlis, Edward Kim...

TL;DR本研究解决了大语言模型在材料科学应用中的稳健性和可靠性不足的问题。通过对多个数据集的综合评估，提出了针对领域特定问答和材料属性预测的新方法，发现模型在面对不同噪声时的表现，旨在提升大语言模型在实际应用中的可靠性和稳健性。

Abstract

Large Language Models (LLMs) have the potential to revolutionize scientific research, yet their Robustness and reliability in domain-specific applications remain insufficiently explored. This study conducts a com

发现论文，激发创造

14个LLM应用案例：揭示大型语言模型黑客马拉松对材料科学与化学的转化

使用大型语言模型解决化学和材料科学中的数据驱动或计算技术的复杂性，从而在各种应用中包括分子和材料的属性预测、设计工具和从非结构化数据中提取知识等领域中产生了巨大的成功。参加的人们利用大型语言模型进行了各种各样的应用，这表明大型语言模型将深刻地影响我们未来的领域。

Jun, 2023

MaScQA：一个用于研究大型语言模型中材料科学知识的问答数据集

我们基于材料学领域的650个具有挑战性的问题，对GPT-3.5和GPT-4模型在问答、零点提示和思维链激励下的表现进行了评估，并发现GPT-4的准确率最高（约为62%），而与思维链激励相比，没有明显的准确率提高。通过错误分析，我们发现概念错误（64%）是改进语言模型表现的主要因素，而计算错误（36%）对LLMs性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定LLMs的开发和信息提取策略的研究。

Aug, 2023

LLM-Prop: 从文本描述预测晶体固体的物理和电子性质

开发出一个名为TextEdge的基准数据集，包含了关于晶体结构及其性质的文本描述，并提出了一种名为LLM-Prop的方法，利用大型语言模型（LLMs）的通用学习能力，从晶体的文本描述中预测其物理和电子性质，并在预测带隙、分类带隙是否为直接或间接和预测晶胞体积方面的性能优于现有最先进的基于GNN的晶体性质预测模型。

Oct, 2023

利用大型语言模型从材料科学文献中挖掘实验数据

评估先进的大型语言模型（LLMs）在材料科学领域的科学文档中提取结构化信息的能力，并引入了一种比较分析复杂材料表述的新方法，重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs在指定的两个关键任务中展现出不同的表现：对于命名实体识别（NER）任务，LLMs未能超越基准模型和规则基模型，对于关系抽取（RE）任务，经过适当策略的GPT-3.5-Turbo优于所有模型，而GPT-4和GPT-4-Turbo在没有经过任何调优的情况下，在仅提供几个示例的情况下展示出出色的推理和关系抽取能力，超越了基准模型。总体而言，结果表明，虽然LLMs在连接概念方面展示出相关的推理能力，但对于需要提取复杂领域特定实体（如材料）的任务来说，专门的模型目前是更好的选择。

Jan, 2024

LLaMP: 用于高保真材料知识检索和蒸馏的大型语言模型

在科学领域，LLMs的幻觉问题是必须解决的，因为可重现性是至关重要的。本文介绍了LLaMP，这是一个多模态检索增强生成（RAG）框架，由多个数据感知推理和行动（ReAct）代理组成，动态与Materials Project（MP）上的计算和实验数据交互。LLaMP在不进行精细调整的情况下，能够理解和整合各种材料科学概念的多模态信息，实时获取相关数据，处理高阶数据（如晶体结构和弹性张量），并对固态合成的多步骤过程进行总结。同时，LLaMP能有效纠正GPT-3.5在频繁文档中的带隙和形成能量方面的错误，并将钻立方硅结构的虚幻体积应变从66.3％降低到0。该框架为材料信息学提供了一种直观且几乎无幻觉的方法，并为知识蒸馏和精细调整其他语言模型奠定了基础。我们设想该框架作为科学假设的有价值组成部分，并为未来的自主实验室奠定基础，多个LLM代理与机器人通信和协作，驱动材料合成和化学反应，无需硬编码的人类逻辑和干预。

Jan, 2024

LLM 是否准备好面对现实世界的材料探索？

基于材料科学知识和假设生成及假设测试，我们描述了材料科学LLMs的框架，以及构建大规模多模态数据集的挑战和应用MatSci-LLMs进行材料发现的路线图。

Feb, 2024

大语言模型时代的材料科学：一个观点

我们提供一个对大型语言模型在材料科学研究中的适用性的观点，认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论，并将其与文献中的相关性质和技术联系起来，然后提供了两个案例研究，展示了它们在大规模任务自动化和知识提取中的应用。我们认为，在当前的发展阶段，大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具，而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。

Mar, 2024

MaterialBENCH：评估大学水平材料科学的问题解决能力的大型语言模型

本研究构建了一个针对大型语言模型（LLMs）在材料科学领域的大学水平基准数据集MaterialBENCH，旨在评估其解决相关问题的能力。通过实验，本研究发现不同类型问题的表现差异，并讨论了如何提高模型在复杂问题解决上的推理能力，从而推动材料研究和发现的进展。

Sep, 2024

利用大型语言模型进行材料和分子属性预测的回归研究

本研究解决了大型语言模型（LLMs）在材料和分子属性回归任务中的应用问题。通过对Meta AI（LLaMA）3进行微调，使用仅基于组成的输入字符串预测分子性质，结果显示，该模型在某些任务上与传统材料属性预测模型相媲美，尽管其误差仍高于现有最优模型。这一发现表明LLMs的多功能性，展示了其在化学和材料科学等领域的潜在应用价值。

Sep, 2024

从大型语言模型衍生的嵌入表示中抽样潜在材料属性信息

本文解决了如何利用大型语言模型（LLMs）生成的向量嵌入捕捉材料属性潜在信息的问题。研究表明，尽管提取这些嵌入需要找到最优的上下文线索和适当的比较对象，但LLMs仍然能够为材料科学提供有意义的表示，具有数据驱动预测材料属性的潜力。

Sep, 2024