语言模型对材料建模需要更多的文本和规模吗？

Jun, 2024

语言模型对材料建模需要更多的文本和规模吗？

MatText: Do Language Models Need More than Text & Scale for Materials Modeling?

Nawaf Alampara, Santiago Miret, Kevin Maik Jablonka

TL;DR通过 MatText 套件中的基准测试工具和数据集，我们对语言模型在材料建模方面的性能进行了广泛分析，结果显示这些模型在捕捉关键的材料几何信息方面存在困难，而在某些新颖的表示方法中强调使用局部信息。我们的分析突显出了基于文本方法在材料设计中存在的不足之处。

Abstract

Effectively representing materials as text has the potential to leverage the vast advancements of large language models (LLMs) for discovering new materials. While LLMs have shown remarkable success in various domains, their application to materials science remains underexplored. A fun

material representation language models mattext benchmarking tools materials modeling

发现论文，激发创造

MatSci-NLP: 使用文本到模式建模评估科学语言模型在材料科学语言任务上的表现

本文提出了 MatSci-NLP 标准，旨在评估自然语言处理模型在材料科学文本上的性能，其中包括命名实体识别和关系分类等传统 NLP 任务以及涉及创建材料合成程序的特定于材料科学的 NLP 任务。作者的实验结果表明，预先训练的模型对科学文本的理解优于对一般文本的 BERT 模型训练，并提出了一种基于问题回答方法的 NLP 多任务学习方法，其性能优于传统的微调方法。

May, 2023

LLM 是否准备好面对现实世界的材料探索？

基于材料科学知识和假设生成及假设测试，我们描述了材料科学 LLMs 的框架，以及构建大规模多模态数据集的挑战和应用 MatSci-LLMs 进行材料发现的路线图。

Feb, 2024

MatSciBERT：用于文本挖掘和信息提取的材料领域语言模型

本文介绍了在材料科学文献数据的基础上训练的一种面向材料科学领域的语言模型 MatSciBERT，并对其在抽象分类、命名实体识别和关系提取等领域的性能进行了评价。结果表明 MatSciBERT 在这些任务中具有优异的表现，可用于提取材料领域的信息以推动材料的发现或优化。同时我们提供 MatSciBERT 的预训练和微调权重，以及模型的免费访问权。

Sep, 2021

大语言模型时代的材料科学：一个观点

我们提供一个对大型语言模型在材料科学研究中的适用性的观点，认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论，并将其与文献中的相关性质和技术联系起来，然后提供了两个案例研究，展示了它们在大规模任务自动化和知识提取中的应用。我们认为，在当前的发展阶段，大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具，而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。

Mar, 2024

LLMatDesign：基于大型语言模型的自主材料发现

LLMatDesign 是一个基于大型语言模型的可解释材料设计框架，通过使用 LLM 代理来翻译人类指令、修改材料并使用提供的工具评估结果，以零样本的方式适应新任务和条件，通过在几个材料设计任务上系统评估证实其在小数据领域中开发具有用户定义目标属性的新材料的有效性，展示了在计算环境中基于自主 LLM 引导的材料发现对于未来的自动化实验室的显著潜力。

Jun, 2024

评估大型语言模型用于物质选择

通过收集专家材料偏好的数据集，该研究提供了评估大型语言模型在材料选择方面与专家建议相符程度的基础，并通过提示工程和超参数调整比较了大型语言模型在各种设计情景下与专家选择的性能。该研究的结果强调了大型语言模型在材料选择方面的两种失败模式，并发现并行提示作为一种有用的提示工程方法。研究结果进一步指出，虽然大型语言模型可以提供有价值的帮助，但它们的建议通常与人类专家存在明显差异，这突显了进一步研究如何更好地调整大型语言模型以复制专家决策的重要性。该研究为大型语言模型如何融入设计过程的日益增长的知识库做出了贡献，提供了关于它们当前限制和未来改进潜力的见解。

Apr, 2024

精细调优的语言模型生成稳定的无机材料文本

通过对大型语言模型进行微调以稳定材料生成，实验证明微调后的模型相对于竞争性扩散模型能以约两倍的速度（49% 对比 28%）产生预测为亚稳态的材料，同时具备生成稳定材料、填补部分结构和根据文本条件生成的能力。此外，研究表明，语言模型捕捉晶体结构的关键对称性能力随模型规模的增大而改善，表明预训练语言模型的偏见适用于原子尺度的数据。

Feb, 2024

MatAtlas: 文本驱动的一致性几何纹理和材质分配

我们提出了 MatAtlas，一种用于一致的文本引导的 3D 模型纹理方法。通过利用大规模的文本生成模型（例如稳定的扩散器）作为纹理 3D 模型的先验知识。我们设计了一种 RGB 纹理流程，利用了基于深度和边缘的网格模式扩散。通过提出多步骤的纹理细化过程，我们显著提高了纹理输出的质量和 3D 一致性。为了进一步解决烘焙光照的问题，我们超越了 RGB 颜色，将参数化材质分配给资源。鉴于高质量的初始 RGB 纹理，我们提出了一种利用大语言模型（LLM）的新颖材质检索方法，实现了可编辑性和重光能力。我们在各种几何形状上评估了我们的方法，并展示了我们的方法明显优于先前的方法。通过详细的消融研究，我们还分析了每个组件的作用。

Apr, 2024

MatChat：用于材料科学的大型语言模型和应用服务平台

本研究利用 LLaMA2-7B 模型，结合 13,878 件结构化材料知识数据，通过学习过程增强了 MatChat AI 模型，以预测无机材料合成路径。尽管 MatChat 还需要进一步完善以满足不同的材料设计需求，但本研究无疑突出了其出色的推理能力和在材料科学领域的创新潜力，同时以开源方式提供了 MatChat 的模型和应用框架，为将生成式人工智能与材料科学整合的协作创新奠定了坚实的基础。

Oct, 2023

材料信息学变压器：一种用于可解释材料性质预测的语言模型

利用大型语言模型进行材料属性预测，通过引入模型 MatInFormer，在加工空间群信息的关键词化过程中学习晶体学语法，并通过任务特定数据进一步展示 MatInFormer 的适应性。通过注意力可视化，我们揭示了模型在属性预测过程中重点关注的特征，并在 14 个不同数据集中验证了我们提出模型的有效性，从而强调其在通过准确的材料属性预测进行高通量筛选方面的潜力。

Aug, 2023