从大型语言模型衍生的嵌入表示中抽样潜在材料属性信息

Sep, 2024

从大型语言模型衍生的嵌入表示中抽样潜在材料属性信息

Sampling Latent Material-Property Information From LLM-Derived Embedding Representations

Luke P. J. Gilligan, Matteo Cobelli, Hasan M. Sayeed, Taylor D. Sparks, Stefano Sanvito

TL;DR本文解决了如何利用大型语言模型（LLMs）生成的向量嵌入捕捉材料属性潜在信息的问题。研究表明，尽管提取这些嵌入需要找到最优的上下文线索和适当的比较对象，但LLMs仍然能够为材料科学提供有意义的表示，具有数据驱动预测材料属性的潜力。

Abstract

Vector Embeddings derived from Large Language Models (LLMs) show promise in capturing Latent Information from the literature. Interestingl

发现论文，激发创造

利用语言表示进行物料推荐、排序与探索

通过使用来自材料科学特定语言模型的自然语言嵌入作为成分和结构特征的表示方法，我们介绍了一种材料发现框架，并将其应用于热电材料，展示了原型结构的多样化推荐和识别出了未充分研究的高性能材料空间，其中包括卤化物钙钛矿、德拉福石和尖晶石结构。

May, 2023

材料科学中的自复现经验教训

我们的研究对两篇杰出的物质科学文献领域的先驱作品进行了重现性分析：金和安迪的“氧化物材料机器学习和编码合成参数”和西托扬的“无监督词嵌入从物质科学文献中捕捉潜在知识”。我们的研究发现这两篇论文的工作流程严谨，代码可复现，获得了明确的模型评估指导；然而，还存在改进的空间，如尽可能提供训练数据的访问权限，提供更多关于模型架构和训练过程的透明度，以及规定软件依赖版本。

Jul, 2023

材料信息学变压器：一种用于可解释材料性质预测的语言模型

利用大型语言模型进行材料属性预测，通过引入模型MatInFormer，在加工空间群信息的关键词化过程中学习晶体学语法，并通过任务特定数据进一步展示MatInFormer的适应性。通过注意力可视化，我们揭示了模型在属性预测过程中重点关注的特征，并在14个不同数据集中验证了我们提出模型的有效性，从而强调其在通过准确的材料属性预测进行高通量筛选方面的潜力。

Aug, 2023

基于生成检索增强的本体图和多智能体策略的解释性大型语言模型材料设计

使用Transformer神经网络和大型语言模型进行材料分析、知识生成和力场开发的研究。

Oct, 2023

利用大型语言模型从材料科学文献中挖掘实验数据

评估先进的大型语言模型（LLMs）在材料科学领域的科学文档中提取结构化信息的能力，并引入了一种比较分析复杂材料表述的新方法，重点是采用化学式的标准化来解决材料科学信息评估中固有的复杂性。LLMs在指定的两个关键任务中展现出不同的表现：对于命名实体识别（NER）任务，LLMs未能超越基准模型和规则基模型，对于关系抽取（RE）任务，经过适当策略的GPT-3.5-Turbo优于所有模型，而GPT-4和GPT-4-Turbo在没有经过任何调优的情况下，在仅提供几个示例的情况下展示出出色的推理和关系抽取能力，超越了基准模型。总体而言，结果表明，虽然LLMs在连接概念方面展示出相关的推理能力，但对于需要提取复杂领域特定实体（如材料）的任务来说，专门的模型目前是更好的选择。

Jan, 2024

LLaMP: 用于高保真材料知识检索和蒸馏的大型语言模型

在科学领域，LLMs的幻觉问题是必须解决的，因为可重现性是至关重要的。本文介绍了LLaMP，这是一个多模态检索增强生成（RAG）框架，由多个数据感知推理和行动（ReAct）代理组成，动态与Materials Project（MP）上的计算和实验数据交互。LLaMP在不进行精细调整的情况下，能够理解和整合各种材料科学概念的多模态信息，实时获取相关数据，处理高阶数据（如晶体结构和弹性张量），并对固态合成的多步骤过程进行总结。同时，LLaMP能有效纠正GPT-3.5在频繁文档中的带隙和形成能量方面的错误，并将钻立方硅结构的虚幻体积应变从66.3％降低到0。该框架为材料信息学提供了一种直观且几乎无幻觉的方法，并为知识蒸馏和精细调整其他语言模型奠定了基础。我们设想该框架作为科学假设的有价值组成部分，并为未来的自主实验室奠定基础，多个LLM代理与机器人通信和协作，驱动材料合成和化学反应，无需硬编码的人类逻辑和干预。

Jan, 2024

LLM 是否准备好面对现实世界的材料探索？

基于材料科学知识和假设生成及假设测试，我们描述了材料科学LLMs的框架，以及构建大规模多模态数据集的挑战和应用MatSci-LLMs进行材料发现的路线图。

Feb, 2024

大语言模型时代的材料科学：一个观点

我们提供一个对大型语言模型在材料科学研究中的适用性的观点，认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论，并将其与文献中的相关性质和技术联系起来，然后提供了两个案例研究，展示了它们在大规模任务自动化和知识提取中的应用。我们认为，在当前的发展阶段，大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具，而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。

Mar, 2024

语言模型对材料建模需要更多的文本和规模吗？

通过MatText套件中的基准测试工具和数据集，我们对语言模型在材料建模方面的性能进行了广泛分析，结果显示这些模型在捕捉关键的材料几何信息方面存在困难，而在某些新颖的表示方法中强调使用局部信息。我们的分析突显出了基于文本方法在材料设计中存在的不足之处。

Jun, 2024

利用大型语言模型进行材料和分子属性预测的回归研究

本研究解决了大型语言模型（LLMs）在材料和分子属性回归任务中的应用问题。通过对Meta AI（LLaMA）3进行微调，使用仅基于组成的输入字符串预测分子性质，结果显示，该模型在某些任务上与传统材料属性预测模型相媲美，尽管其误差仍高于现有最优模型。这一发现表明LLMs的多功能性，展示了其在化学和材料科学等领域的潜在应用价值。

Sep, 2024