SmileyLlama：修改大型语言模型以进行定向化学空间探索

Sep, 2024

SmileyLlama：修改大型语言模型以进行定向化学空间探索

SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration

Joseph M. Cavanagh, Kunyang Sun, Andrew Gritsevskiy, Dorian Bagni, Thomas D. Bannister...

TL;DR本研究解决了大型语言模型在化学空间探索中的应用问题，提出了一种新的方法，通过对开源Llama模型进行有监督微调和直接偏好优化，开发出一种化学语言模型。最重要的发现是，该模型能够生成符合药物开发需求的分子，具有广泛的应用潜力。

Abstract

Here we show that a Large Language Model (LLM) can serve as a foundation model for a Chemical Language Model (CLM) which performs at or above the level of CLMs trained solely on chemical SMILES string data. Using

发现论文，激发创造

科学大型语言模型：生物与化学领域综述

大型语言模型 (LLMs) 在增强自然语言理解方面具有变革性的力量，代表着朝着人工通用智能迈出的重要一步。科学LLMs是一个新兴的领域，专门针对促进科学发现进行工程化设计。本文详细调查了科学LLMs，并围绕生物化学领域进行了深入研究，包括文本知识、小型分子、大分子蛋白质、基因组序列以及它们的组合，从模型架构、能力、数据集和评估等方面进行了分析。最后，我们批判性地审查了当前的挑战，并指出了前景广阔的研究方向以及LLMs的进展。通过提供对该领域技术发展的全面概述，本调查力求成为研究人员在科学LLMs复杂领域中的宝贵资源。

Jan, 2024

ChemDFM：化学对话基础模型

化学研究中的大型语言模型，ChemDFM，具有高度专业化的语言和知识，并在化学任务中表现出强大的性能和效果。

Jan, 2024

LLaMA和ChatGPT嵌入在分子嵌入方面的比较分析

大型语言模型在化学信息学领域的应用潜力日益受到重视，特别是在解释SMILES（Simplified Molecular Input Line Entry System）方面，这是一种表示化学结构的标准方法。通过使用大型语言模型可以将SMILES字符串解码为向量表示，从而提供了一种理解化学图的新方法。我们研究了ChatGPT和LLaMA在嵌入SMILES字符串方面的性能，并将重点评估应用在药物开发和医疗保健中至关重要的两个关键问题：分子性质预测和药物间相互作用预测。我们发现，使用LLaMA生成的SMILES嵌入在分子性质预测和药物间相互作用预测任务中胜过ChatGPT。值得注意的是，基于LLaMA的SMILES嵌入在这两个预测任务中与现有方法相当。大型语言模型在化学信息学中的应用，特别是利用SMILES嵌入，为推进药物开发提供了巨大的潜力，包括改进化学性质预测和促进药物发现过程。

Jan, 2024

从词语到分子: 化学中大型语言模型的调查

将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务，本文以细致的方法论探索了该跨学科领域的复杂性和创新，从分子信息如何通过各种表示和标记方法导入LLMs开始，将化学LLMs分为三个不同的群体，并讨论了将这些输入整合到LLMs的方法，然后探讨了应用LLMs在化学中的多样化应用，包括在化学任务中的新范例，最后确定了有望的研究方向，包括进一步整合化学知识，持续学习的进展以及模型可解释性的改进，为该领域的突破性发展铺平了道路。

Feb, 2024

化学LLM: 一种化学大型语言模型

ChemLLM是第一个专门用于化学领域的大型语言模型，通过使用结构化化学知识构建对话系统，能够在化学学科中顺畅交互完成各种任务，包括名称转换、分子标题和反应预测，并在相关数学和物理任务中展现出出色的适应性。

Feb, 2024

LlaSMol：通过大规模、综合、高质量的指导调整数据集推进化学领域的大型语言模型

我们研究了基于SMolInstruct数据集进行fine-tune的大型语言模型在化学任务上表现出色，特别是Mistral模型，同时，我们还分析了可训练参数的影响，为未来的研究提供了一些见解。

Feb, 2024

大规模语言模型用于分子预测任务的基准测试

LLMs在分子预测任务中的表现相对较弱，而与机器学习模型合作使用时，LLMs有潜力提升模型性能。

Mar, 2024

大型语言模型是超人级化学家吗？

通过ChemBench等评估框架，我们发现大型语言模型在化学科学中展示出卓越的能力，但仍需进一步研究以提高其安全性和实用性。

Apr, 2024

反馈对齐的混合LLMs用于机器语言分子翻译

使用先进的优化算法和非线性融合，通过少量数据实现科学大语言模型的性能提升和新的最佳水平，并引入细粒度的评估方法来评估大语言模型中的虚构能力和促进负责任的使用。

May, 2024

MolX: 使用多模态扩展增强大型语言模型在分子学习中的能力

本研究设计和装备MolX作为一种多模态外部模块，通过使用特定编码器从SMILES字符串和2D分子图表示中提取细粒度特征，从而增强了大型语言模型（LLMs）在理解分子方面的能力。实验结果表明，我们提出的方法在多种分子相关任务中表现出色，包括从分子到文本的翻译和分子的逆合成，无论是否对LLM进行微调。

Jun, 2024