将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入 LLMs 开始,将化学 LLMs 分为三个不同的群体,并讨论了将这些输入整合到 LLMs 的方法,然后探讨了应用 LLMs 在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024
通过 ChemBench 等评估框架,我们发现大型语言模型在化学科学中展示出卓越的能力,但仍需进一步研究以提高其安全性和实用性。
Apr, 2024
化学研究中的大型语言模型,ChemDFM,具有高度专业化的语言和知识,并在化学任务中表现出强大的性能和效果。
Jan, 2024
DrugLLM 是一个专门用于药物设计的大型语言模型,在训练过程中使用基于群组的分子表示(GMR)来表示分子,通过预测基于过去修饰的下一个分子来学习如何修改分子,在有限的示例基础上生成具有期望特性的新分子,并具有强大的少样本分子生成能力。
May, 2024
本文研究利用大型语言模型(LLMs)解决复杂的化学问题的问题,提出了 InstructChem,一种新的结构化推理方法,极大地提升了 LLMs 的化学推理能力。
Nov, 2023
LLMs 在分子预测任务中的表现相对较弱,而与机器学习模型合作使用时,LLMs 有潜力提升模型性能。
Mar, 2024
通过使用多模态基准 ChEBI-20-MM,我们评估了模型与数据模态的兼容性和知识获取,并通过模态转移概率矩阵提供了适用于任务的最合适的模态,同时引入了一种统计可解释的方法,通过局部特征过滤来发现具有上下文特定的知识映射,从而揭示了科学语言建模在分子科学中的学习机制及其推进方法的可能性。
我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色,特别是 Mistral 模型,同时,我们还分析了可训练参数的影响,为未来的研究提供了一些见解。
大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量,代表着朝着人工通用智能迈出的重要一步。科学 LLMs 是一个新兴的领域,专门针对促进科学发现进行工程化设计。本文详细调查了科学 LLMs,并围绕生物化学领域进行了深入研究,包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合,从模型架构、能力、数据集和评估等方面进行了分析。最后,我们批判性地审查了当前的挑战,并指出了前景广阔的研究方向以及 LLMs 的进展。通过提供对该领域技术发展的全面概述,本调查力求成为研究人员在科学 LLMs 复杂领域中的宝贵资源。
我们提供一个对大型语言模型在材料科学研究中的适用性的观点,认为它们处理一系列任务和学科中的模糊需求的能力使它们成为帮助研究人员的强大工具。我们定性地研究了基础的大型语言模型理论,并将其与文献中的相关性质和技术联系起来,然后提供了两个案例研究,展示了它们在大规模任务自动化和知识提取中的应用。我们认为,在当前的发展阶段,大型语言模型应该被视为能够加速和统一领域探索的不知疲倦的工具,而不是新见解的神谕。希望本文能让材料科学研究人员了解到运用这些工具的相关概念。