大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量,代表着朝着人工通用智能迈出的重要一步。科学LLMs是一个新兴的领域,专门针对促进科学发现进行工程化设计。本文详细调查了科学LLMs,并围绕生物化学领域进行了深入研究,包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合,从模型架构、能力、数据集和评估等方面进行了分析。最后,我们批判性地审查了当前的挑战,并指出了前景广阔的研究方向以及LLMs的进展。通过提供对该领域技术发展的全面概述,本调查力求成为研究人员在科学LLMs复杂领域中的宝贵资源。
Jan, 2024
化学研究中的大型语言模型,ChemDFM,具有高度专业化的语言和知识,并在化学任务中表现出强大的性能和效果。
大型语言模型在化学信息学领域的应用潜力日益受到重视,特别是在解释SMILES(Simplified Molecular Input Line Entry System)方面,这是一种表示化学结构的标准方法。通过使用大型语言模型可以将SMILES字符串解码为向量表示,从而提供了一种理解化学图的新方法。我们研究了ChatGPT和LLaMA在嵌入SMILES字符串方面的性能,并将重点评估应用在药物开发和医疗保健中至关重要的两个关键问题:分子性质预测和药物间相互作用预测。我们发现,使用LLaMA生成的SMILES嵌入在分子性质预测和药物间相互作用预测任务中胜过ChatGPT。值得注意的是,基于LLaMA的SMILES嵌入在这两个预测任务中与现有方法相当。大型语言模型在化学信息学中的应用,特别是利用SMILES嵌入,为推进药物开发提供了巨大的潜力,包括改进化学性质预测和促进药物发现过程。
将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入LLMs开始,将化学LLMs分为三个不同的群体,并讨论了将这些输入整合到LLMs的方法,然后探讨了应用LLMs在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024
ChemLLM是第一个专门用于化学领域的大型语言模型,通过使用结构化化学知识构建对话系统,能够在化学学科中顺畅交互完成各种任务,包括名称转换、分子标题和反应预测,并在相关数学和物理任务中展现出出色的适应性。
我们研究了基于SMolInstruct数据集进行fine-tune的大型语言模型在化学任务上表现出色,特别是Mistral模型,同时,我们还分析了可训练参数的影响,为未来的研究提供了一些见解。
LLMs在分子预测任务中的表现相对较弱,而与机器学习模型合作使用时,LLMs有潜力提升模型性能。
Mar, 2024
通过ChemBench等评估框架,我们发现大型语言模型在化学科学中展示出卓越的能力,但仍需进一步研究以提高其安全性和实用性。
Apr, 2024
使用先进的优化算法和非线性融合,通过少量数据实现科学大语言模型的性能提升和新的最佳水平,并引入细粒度的评估方法来评估大语言模型中的虚构能力和促进负责任的使用。
May, 2024
本研究设计和装备MolX作为一种多模态外部模块,通过使用特定编码器从SMILES字符串和2D分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对LLM进行微调。
Jun, 2024