SMILES-Mamba:用于药物ADMET预测的化学Mamba基础模型
本文研究了SMILES2vec方法,即使用深度循环神经网络学习SMILES格式中的结构信息,预测多种化学性质,比传统方法更加准确和可解释。
Dec, 2017
本文介绍了一种基于SMILES Transformer 的分子指纹预测方法,该方法在虚拟筛选和其他药物发现任务中表现出优越性,在小数据集和复杂分析环境中表现良好。
Nov, 2019
文章介绍了一种基于机器学习和自监督学习的ADMET系统,具有端点可扩展性和定制性,在药物研发领域具有重要的应用价值。
May, 2022
使用SMILES-to-Properties-Transformer(SPT)自然语言处理网络,通过从COSMO-RS中采样的大量合成数据训练并微调实验数据来准确预测限制性活度系数,取得了比COSMO-RS、UNIFAC等现有模型和近期机器学习方法更高的精度。
Jun, 2022
SELFormer是一种基于变压器架构的化学语言模型,利用100%有效,紧凑和自我表达符号SELFIES作为输入来学习灵活且高质量的分子表示方法,并可以发现隐藏在数据中的知识, 这种方法在药物发现中具有很大的潜力。
Apr, 2023
机器学习在药物发现中预测小分子性质方面具有很大潜力。本文提供了对近年来为此目的引入的各种机器学习方法的综合概述,并对结合亲合力、溶解度和ADMET(吸收、分布、代谢、排泄和毒性)等多个性质预测和优化技术进行了讨论。我们还评估了模型预测方面的技术,特别是在药物发现中关键决策方面提供模型预测理解的技术。总的来说,这篇综述为药物发现中小分子性质预测的机器学习模型提供了深入了解。尽管有多种多样的方法,但它们的性能通常相当。神经网络虽然更加灵活,但并不总是优于更简单的模型。这表明高质量的训练数据对于训练准确的模型仍然至关重要,并且需要标准化的基准、额外的性能指标和最佳实践,以便更好地比较不同技术和模型之间的差异。
Aug, 2023
AI用于药物发现是近年来的研究热点,基于SMILES的语言模型越来越多地应用于药物分子设计。本研究探讨了语言模型是否以及如何从1D序列中理解化学空间结构。我们在化学语言上对Transformer模型进行预训练,并朝向药物设计目标进行微调,研究高频SMILES子字符串与分子片段的对应关系。结果表明,语言模型可以从分子片段的角度理解化学结构,并且通过微调学到的结构知识反映在模型生成的高频SMILES子字符串中。
Jan, 2024
大型语言模型在化学信息学领域的应用潜力日益受到重视,特别是在解释SMILES(Simplified Molecular Input Line Entry System)方面,这是一种表示化学结构的标准方法。通过使用大型语言模型可以将SMILES字符串解码为向量表示,从而提供了一种理解化学图的新方法。我们研究了ChatGPT和LLaMA在嵌入SMILES字符串方面的性能,并将重点评估应用在药物开发和医疗保健中至关重要的两个关键问题:分子性质预测和药物间相互作用预测。我们发现,使用LLaMA生成的SMILES嵌入在分子性质预测和药物间相互作用预测任务中胜过ChatGPT。值得注意的是,基于LLaMA的SMILES嵌入在这两个预测任务中与现有方法相当。大型语言模型在化学信息学中的应用,特别是利用SMILES嵌入,为推进药物开发提供了巨大的潜力,包括改进化学性质预测和促进药物发现过程。
Jan, 2024
该研究引入了一个系统框架,用于比较大型语言模型在各种化学信息学任务中的微调效果。通过采用统一的训练方法,我们评估了三种知名模型(RoBERTa、BART和LLaMA)在使用SMILES作为通用分子表示格式预测分子性质时的能力。我们的比较分析涉及18种不同参数大小和数据集规模的这些模型的预训练,接着对它们在DeepChem的六个基准任务上进行微调。该研究不仅界定了每种模型类型的优势和局限性,还为选择最适合特定化学信息学应用的大型语言模型提供了可靠的方法论。
May, 2024
本研究解决了传统机器学习模型在蛋白质功能预测中面临的复杂性和变异性问题。提出的Protein-Mamba模型结合自监督学习和微调技术,成功提高了预测性能,并通过实验验证了其在多种蛋白质功能数据集上的竞争力表现,展现了自监督学习在药物发现中的潜力。
Sep, 2024