自引嵌入字符串(SELFIES):一种 100% 鲁棒的分子字符串表示
该研究探讨了化学中的自然语言处理与机器学习的应用,重点介绍了一种新的分子语言 SELFIES,并提出了 16 个具体的未来项目计划,以发掘分子字符串表示在化学和材料科学中的潜力。
Mar, 2022
SELFormer 是一种基于变压器架构的化学语言模型,利用 100%有效,紧凑和自我表达符号 SELFIES 作为输入来学习灵活且高质量的分子表示方法,并可以发现隐藏在数据中的知识, 这种方法在药物发现中具有很大的潜力。
Apr, 2023
通过引入序列附加式片段嵌入(SAFE)作为化学结构的新型线型表示方法,我们有效地解决了传统分子字符串表示(如 SMILES)对人工智能驱动的分子设计所带来的挑战,同时简化了复杂的生成任务,并且通过在具有片段约束的设计中进行自回归生成,消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型,我们展示了 SAFE 的有效性,并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径,为人工智能驱动的分子设计带来突破性进展。
Oct, 2023
使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强,使得神经网络训练表现得更好。该技术不仅适用于训练阶段,还能在预测阶段对结果进行进一步提升。
Mar, 2017
本研究介绍了一种名为 t-SMILES 的分子表示方法,采用基于分子图的全二叉分子树上的 BFS 得到 SMILES 类型字符串描述分子,可结合序列生成模型和图模型的优势,适用于分子生成和设计任务,实验证明 t-SMILES 基于模型表现显著超越了先前提出的基于片段的模型,并且对传统的 SMILES 和图模型具有竞争力。
Jan, 2023
本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法,该方法在虚拟筛选和其他药物发现任务中表现出优越性,在小数据集和复杂分析环境中表现良好。
Nov, 2019
本文提出了一种基于 SMILES 和分子指纹的混合特征的神经网络模型 CheMixNet,其用于预测化学物质的性质,与其他候选神经网络体系结构相比取得了更好的效果。
Nov, 2018
该研究提出使用化学反应来辅助学习分子表示,强制规定化学方程中反应物嵌入和生成物嵌入之和相等,以保持嵌入空间的良好组织,并提高分子嵌入的泛化能力。实验结果表明,该方法在多个下游任务中获得了最先进的性能。
Sep, 2021
该研究提出了一种新颖的方法,结合子结构计数,k-mers 和类似 Daylight 的指纹,以扩展 SMILES 字符串中化学结构的表示。该集成方法生成全面的分子嵌入,增强了辨别能力和信息内容。实验评估表明,与传统的 Morgan 指纹,MACCS 和单独的 Daylight 指纹相比,该方法优势明显,改善了药物分类等化学信息学任务。该方法提供了化学结构的更丰富表示,推进了分子相似性分析,并促进了在分子设计和药物发现中的应用。它为分子结构分析和设计提供了有前景的研究方向,并具有重要的实际实施潜力。
Mar, 2024
基于 SELFIES,该论文提出了 PASITHEA,一种直接基于梯度的分子优化方法,应用计算机视觉中的 inceptionism 技术,通过建立一个逆回归模型来生成优化某一属性的分子变异体。
Dec, 2020