HoneyComb:基于灵活的LLM的材料科学代理系统
使用大型语言模型解决化学和材料科学中的数据驱动或计算技术的复杂性,从而在各种应用中包括分子和材料的属性预测、设计工具和从非结构化数据中提取知识等领域中产生了巨大的成功。参加的人们利用大型语言模型进行了各种各样的应用,这表明大型语言模型将深刻地影响我们未来的领域。
Jun, 2023
通过一个基于指令的过程,我们在材料科学中提出了一个可信赖的数据策划方法(MatSci-Instruct),然后应用于对材料科学进行细微调整的基于 LLaMa 的语言模型(HoneyBee)。
Oct, 2023
通过使用大型语言模型(LLMs)创建化学家 AI 代理程序,本研究克服了通过自动创建从自然语言文本中提取结构化数据集所面临的质量和一致性问题、可扩展性限制、以及人为错误和偏见的风险,进而简化了各种材料发现应用的机器学习数据集的编制,以及对自然语言处理工具的易用性提升。
Dec, 2023
本文介绍了一种专门用于材料科学的聊天机器人的开发,利用了Llama-2语言模型,并在S2ORC数据集中的广阔研究论文上继续进行预训练。该方法包括对100万多个领域特定论文进行初步预训练,然后通过指令调整过程来改进聊天机器人的能力。该聊天机器人旨在通过为材料科学领域的查询提供即时的、上下文感知的回复,来帮助研究人员、教育工作者和学生。我们提供了四个经过训练的检查点(7B、13B,具有或不具有聊天功能),供研究社区免费使用。
Jan, 2024
在科学领域,LLMs的幻觉问题是必须解决的,因为可重现性是至关重要的。本文介绍了LLaMP,这是一个多模态检索增强生成(RAG)框架,由多个数据感知推理和行动(ReAct)代理组成,动态与Materials Project(MP)上的计算和实验数据交互。LLaMP在不进行精细调整的情况下,能够理解和整合各种材料科学概念的多模态信息,实时获取相关数据,处理高阶数据(如晶体结构和弹性张量),并对固态合成的多步骤过程进行总结。同时,LLaMP能有效纠正GPT-3.5在频繁文档中的带隙和形成能量方面的错误,并将钻立方硅结构的虚幻体积应变从66.3%降低到0。该框架为材料信息学提供了一种直观且几乎无幻觉的方法,并为知识蒸馏和精细调整其他语言模型奠定了基础。我们设想该框架作为科学假设的有价值组成部分,并为未来的自主实验室奠定基础,多个LLM代理与机器人通信和协作,驱动材料合成和化学反应,无需硬编码的人类逻辑和干预。
Jan, 2024
基于材料科学知识和假设生成及假设测试,我们描述了材料科学LLMs的框架,以及构建大规模多模态数据集的挑战和应用MatSci-LLMs进行材料发现的路线图。
Feb, 2024
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。
Mar, 2024
LLMatDesign是一个基于大型语言模型的可解释材料设计框架,通过使用LLM代理来翻译人类指令、修改材料并使用提供的工具评估结果,以零样本的方式适应新任务和条件,通过在几个材料设计任务上系统评估证实其在小数据领域中开发具有用户定义目标属性的新材料的有效性,展示了在计算环境中基于自主LLM引导的材料发现对于未来的自动化实验室的显著潜力。
Jun, 2024
本文解决了人工智能在自主推进科学理解方面的挑战,提出了SciAgents这一新方法,使用大型本体知识图谱和多智能体系统。研究发现,该框架能够揭示生物材料领域中隐藏的跨学科关系,超越传统人驱动研究方法的规模和精度,为材料发现和先进材料的发展开辟了新渠道。
Sep, 2024