将 SMILES 的语言知识融入化学语言模型

Apr, 2022

将 SMILES 的语言知识融入化学语言模型

Infusing Linguistic Knowledge of SMILES into Chemical Language Models

Ingoo Lee, Hojung Nam

TL;DR本研究使用 SMILES 语法解析技术从 SMILES 中获取子结构的连接性和类型背景知识并将其注入转换器模型，从而提高了分子属性预测的性能。

Abstract

The simplified molecular-input line-entry system (smiles) is the most popular representation of chemical compounds. Therefore, many smiles-based molecular property prediction models have been developed. In partic

smiles transformers grammatical knowledge connectivity molecular properties

发现论文，激发创造

使用 SMILES 给 Transformer 输入时学习手性的困难

通过研究 Transformer 模型在学习 SMILES 的化学结构上的进展与成效，结果表明 Transformer 模型学习分子的局部结构能力较强，但需要更长时间的训练才能理解整体结构和手性，这些发现有望深化化学领域中 NLP 模型的理解。

Mar, 2023

基于 LLMs 的药物分子结构的碎片水平理解的实证证据

AI 用于药物发现是近年来的研究热点，基于 SMILES 的语言模型越来越多地应用于药物分子设计。本研究探讨了语言模型是否以及如何从 1D 序列中理解化学空间结构。我们在化学语言上对 Transformer 模型进行预训练，并朝向药物设计目标进行微调，研究高频 SMILES 子字符串与分子片段的对应关系。结果表明，语言模型可以从分子片段的角度理解化学结构，并且通过微调学到的结构知识反映在模型生成的高频 SMILES 子字符串中。

Jan, 2024

SMILES Transformer: 面向低数据药物发现的预训练分子指纹

本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法，该方法在虚拟筛选和其他药物发现任务中表现出优越性，在小数据集和复杂分析环境中表现良好。

Nov, 2019

学习 SMILE (S)

该论文证明了可以直接将自然语言处理方法应用于化学信息学的分类问题中，并通过 SMILES 化合物的标准文本表示考虑了这些看似不相关的领域之间的联系。研究了针对目标蛋白的活性预测问题，这是计算机辅助药物设计过程中的关键部分。实验结果表明，这种方法不仅能够超越手动制作表示结果的最高水平，还直接获得结构洞见以了解决策的制定方式。

Feb, 2016

CheMixNet: 使用多种分子表征的混合 DNN 架构预测化学性质

本文提出了一种基于 SMILES 和分子指纹的混合特征的神经网络模型 CheMixNet，其用于预测化学物质的性质，与其他候选神经网络体系结构相比取得了更好的效果。

Nov, 2018

多模态信息下的分子联合表示学习

本文提出了一种新的分子联合表示学习框架，通过 SMILES 和分子图的多模态信息进行多模态融合，改进了自我注意力机制，并进一步提出了双向消息传递图神经网络来增强从图中聚合的信息流以进一步组合。我们通过公共性质预测数据集上的大量实验证明了我们的模型的有效性。

Nov, 2022

巨型语言模型能够提升分子属性预测吗？

使用 Large Language Models (LLMs) 进行零 / 少量数据量的分子分类以及利用由 LLMs 生成的文本解释作为分子表示，可以大大提高分子属性预测的精度。

Jul, 2023

ChemBERTa: 面向分子性质预测的大规模自监督预训练

这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估，结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力，同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。

Oct, 2020

SMILES2Vec: 一个可解释通用的深度神经网络，用于预测化学性质

本文研究了 SMILES2vec 方法，即使用深度循环神经网络学习 SMILES 格式中的结构信息，预测多种化学性质，比传统方法更加准确和可解释。

Dec, 2017

基于碎片的 t-SMILES 用于新颖分子的生成

本研究介绍了一种名为 t-SMILES 的分子表示方法，采用基于分子图的全二叉分子树上的 BFS 得到 SMILES 类型字符串描述分子，可结合序列生成模型和图模型的优势，适用于分子生成和设计任务，实验证明 t-SMILES 基于模型表现显著超越了先前提出的基于片段的模型，并且对传统的 SMILES 和图模型具有竞争力。

Jan, 2023