自引嵌入字符串（SELFIES）：一种 100% 鲁棒的分子字符串表示

May, 2019

自引嵌入字符串（SELFIES）：一种 100% 鲁棒的分子字符串表示

Self-Referencing Embedded Strings (SELFIES): A 100% robust molecular string representation

Mario Krenn, Florian Häse, AkshatKumar Nigam, Pascal Friederich, Alán Aspuru-Guzik

TL;DR该研究提出了一种称为 SELFIES 的分子字符串表示法，每个 SELFIES 字符串都对应着一个合法的分子，这种方法可以直接用于任意的机器学习模型中，其生成的分子候选集合法且多样性更高，并且允许更好的解释和解读生成模型的内部机制。

Abstract

The discovery of novel materials and functional molecules can help to solve some of society's most urgent challenges, ranging from efficient energy harvesting and storage to uncovering novel pharmaceutical drug candidates. Traditionally matter engineering -- generally denoted as

materials discovery functional molecules inverse design selfies machine learning models

发现论文，激发创造

SELFIES 与分子链表示法的未来

该研究探讨了化学中的自然语言处理与机器学习的应用，重点介绍了一种新的分子语言 SELFIES，并提出了 16 个具体的未来项目计划，以发掘分子字符串表示在化学和材料科学中的潜力。

Mar, 2022

SELFormer: SELFIES 语言模型实现的分子表示学习

SELFormer 是一种基于变压器架构的化学语言模型，利用 100％有效，紧凑和自我表达符号 SELFIES 作为输入来学习灵活且高质量的分子表示方法，并可以发现隐藏在数据中的知识，这种方法在药物发现中具有很大的潜力。

Apr, 2023

Gotta be SAFE: 分子设计的新框架

通过引入序列附加式片段嵌入（SAFE）作为化学结构的新型线型表示方法，我们有效地解决了传统分子字符串表示（如 SMILES）对人工智能驱动的分子设计所带来的挑战，同时简化了复杂的生成任务，并且通过在具有片段约束的设计中进行自回归生成，消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型，我们展示了 SAFE 的有效性，并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径，为人工智能驱动的分子设计带来突破性进展。

Oct, 2023

SMILES 枚举作为分子神经网络建模的数据增强

使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强，使得神经网络训练表现得更好。该技术不仅适用于训练阶段，还能在预测阶段对结果进行进一步提升。

Mar, 2017

基于碎片的 t-SMILES 用于新颖分子的生成

本研究介绍了一种名为 t-SMILES 的分子表示方法，采用基于分子图的全二叉分子树上的 BFS 得到 SMILES 类型字符串描述分子，可结合序列生成模型和图模型的优势，适用于分子生成和设计任务，实验证明 t-SMILES 基于模型表现显著超越了先前提出的基于片段的模型，并且对传统的 SMILES 和图模型具有竞争力。

Jan, 2023

SMILES Transformer: 面向低数据药物发现的预训练分子指纹

本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法，该方法在虚拟筛选和其他药物发现任务中表现出优越性，在小数据集和复杂分析环境中表现良好。

Nov, 2019

CheMixNet: 使用多种分子表征的混合 DNN 架构预测化学性质

本文提出了一种基于 SMILES 和分子指纹的混合特征的神经网络模型 CheMixNet，其用于预测化学物质的性质，与其他候选神经网络体系结构相比取得了更好的效果。

Nov, 2018

化学反应感知分子表示学习

该研究提出使用化学反应来辅助学习分子表示，强制规定化学方程中反应物嵌入和生成物嵌入之和相等，以保持嵌入空间的良好组织，并提高分子嵌入的泛化能力。实验结果表明，该方法在多个下游任务中获得了最先进的性能。

Sep, 2021

利用 k-mer 和基于片段的指纹扩展化学表示的分子指纹

该研究提出了一种新颖的方法，结合子结构计数，k-mers 和类似 Daylight 的指纹，以扩展 SMILES 字符串中化学结构的表示。该集成方法生成全面的分子嵌入，增强了辨别能力和信息内容。实验评估表明，与传统的 Morgan 指纹，MACCS 和单独的 Daylight 指纹相比，该方法优势明显，改善了药物分类等化学信息学任务。该方法提供了化学结构的更丰富表示，推进了分子相似性分析，并促进了在分子设计和药物发现中的应用。它为分子结构分析和设计提供了有前景的研究方向，并具有重要的实际实施潜力。

Mar, 2024

深度分子生成：基于逆向机器学习的全新分子设计与可解释性

基于 SELFIES，该论文提出了 PASITHEA，一种直接基于梯度的分子优化方法，应用计算机视觉中的 inceptionism 技术，通过建立一个逆回归模型来生成优化某一属性的分子变异体。

Dec, 2020