SELFIES 与分子链表示法的未来

MMMar, 2022

SELFIES and the future of molecular string representations

Mario Krenn, Qianxiang Ai, Senja Barthel, Nessa Carson, Angelo Frei...

TL;DR该研究探讨了化学中的自然语言处理与机器学习的应用，重点介绍了一种新的分子语言 SELFIES，并提出了 16 个具体的未来项目计划，以发掘分子字符串表示在化学和材料科学中的潜力。

Abstract

artificial intelligence (AI) and machine learning (ML) are expanding in popularity for broad applications to challenging tasks in chemistry

artificial intelligence machine learning chemistry selfies molecular string representations

发现论文，激发创造

自引嵌入字符串（SELFIES）：一种 100% 鲁棒的分子字符串表示

该研究提出了一种称为 SELFIES 的分子字符串表示法，每个 SELFIES 字符串都对应着一个合法的分子，这种方法可以直接用于任意的机器学习模型中，其生成的分子候选集合法且多样性更高，并且允许更好的解释和解读生成模型的内部机制。

May, 2019

SELFormer: SELFIES 语言模型实现的分子表示学习

SELFormer 是一种基于变压器架构的化学语言模型，利用 100％有效，紧凑和自我表达符号 SELFIES 作为输入来学习灵活且高质量的分子表示方法，并可以发现隐藏在数据中的知识，这种方法在药物发现中具有很大的潜力。

Apr, 2023

SMILES 枚举作为分子神经网络建模的数据增强

使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强，使得神经网络训练表现得更好。该技术不仅适用于训练阶段，还能在预测阶段对结果进行进一步提升。

Mar, 2017

CheMixNet: 使用多种分子表征的混合 DNN 架构预测化学性质

本文提出了一种基于 SMILES 和分子指纹的混合特征的神经网络模型 CheMixNet，其用于预测化学物质的性质，与其他候选神经网络体系结构相比取得了更好的效果。

Nov, 2018

将 SMILES 的语言知识融入化学语言模型

本研究使用 SMILES 语法解析技术从 SMILES 中获取子结构的连接性和类型背景知识并将其注入转换器模型，从而提高了分子属性预测的性能。

Apr, 2022

Gotta be SAFE: 分子设计的新框架

通过引入序列附加式片段嵌入（SAFE）作为化学结构的新型线型表示方法，我们有效地解决了传统分子字符串表示（如 SMILES）对人工智能驱动的分子设计所带来的挑战，同时简化了复杂的生成任务，并且通过在具有片段约束的设计中进行自回归生成，消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型，我们展示了 SAFE 的有效性，并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径，为人工智能驱动的分子设计带来突破性进展。

Oct, 2023

基于 LLMs 的药物分子结构的碎片水平理解的实证证据

AI 用于药物发现是近年来的研究热点，基于 SMILES 的语言模型越来越多地应用于药物分子设计。本研究探讨了语言模型是否以及如何从 1D 序列中理解化学空间结构。我们在化学语言上对 Transformer 模型进行预训练，并朝向药物设计目标进行微调，研究高频 SMILES 子字符串与分子片段的对应关系。结果表明，语言模型可以从分子片段的角度理解化学结构，并且通过微调学到的结构知识反映在模型生成的高频 SMILES 子字符串中。

Jan, 2024

多模态信息下的分子联合表示学习

本文提出了一种新的分子联合表示学习框架，通过 SMILES 和分子图的多模态信息进行多模态融合，改进了自我注意力机制，并进一步提出了双向消息传递图神经网络来增强从图中聚合的信息流以进一步组合。我们通过公共性质预测数据集上的大量实验证明了我们的模型的有效性。

Nov, 2022

SMILES Transformer: 面向低数据药物发现的预训练分子指纹

本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法，该方法在虚拟筛选和其他药物发现任务中表现出优越性，在小数据集和复杂分析环境中表现良好。

Nov, 2019

化学反应感知分子表示学习

该研究提出使用化学反应来辅助学习分子表示，强制规定化学方程中反应物嵌入和生成物嵌入之和相等，以保持嵌入空间的良好组织，并提高分子嵌入的泛化能力。实验结果表明，该方法在多个下游任务中获得了最先进的性能。

Sep, 2021