SMILES Transformer: 面向低数据药物发现的预训练分子指纹
本文旨在使用反应数据进行预训练分子表示的过程,运用在 MoleculeNet 的 12 个分子属性预测任务上,结果显著地提高了预测模型的表现。
Jul, 2022
本文提出了一种基于 SMILES 和分子指纹的混合特征的神经网络模型 CheMixNet,其用于预测化学物质的性质,与其他候选神经网络体系结构相比取得了更好的效果。
Nov, 2018
这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估,结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力,同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。
Oct, 2020
本研究使用 SMILES 语法解析技术从 SMILES 中获取子结构的连接性和类型背景知识并将其注入转换器模型,从而提高了分子属性预测的性能。
Apr, 2022
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
该研究提出了一种双视图分子预训练算法(简称 DMP),旨在将分子的图表示和 SMILES 序列表示相结合进行预训练,经过在多种分子特性预测任务和合成规划任务上的测试,DMP 都取得了最先进的表现。
Jun, 2021
AI 用于药物发现是近年来的研究热点,基于 SMILES 的语言模型越来越多地应用于药物分子设计。本研究探讨了语言模型是否以及如何从 1D 序列中理解化学空间结构。我们在化学语言上对 Transformer 模型进行预训练,并朝向药物设计目标进行微调,研究高频 SMILES 子字符串与分子片段的对应关系。结果表明,语言模型可以从分子片段的角度理解化学结构,并且通过微调学到的结构知识反映在模型生成的高频 SMILES 子字符串中。
Jan, 2024
使用机器学习预测有机材料属性是一种高效的虚拟筛选方法,本研究证明药物类小分子和化学反应数据库可用于预训练 BERT 模型以进行有机材料的虚拟筛选,并展示了其在机器学习模型训练中的优越性能,进一步加强了跨不同化学领域的迁移学习在有机材料的虚拟筛选中的可行性。
Nov, 2023
该论文证明了可以直接将自然语言处理方法应用于化学信息学的分类问题中,并通过 SMILES 化合物的标准文本表示考虑了这些看似不相关的领域之间的联系。研究了针对目标蛋白的活性预测问题,这是计算机辅助药物设计过程中的关键部分。实验结果表明,这种方法不仅能够超越手动制作表示结果的最高水平,还直接获得结构洞见以了解决策的制定方式。
Feb, 2016
使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强,使得神经网络训练表现得更好。该技术不仅适用于训练阶段,还能在预测阶段对结果进行进一步提升。
Mar, 2017