Oct, 2023

Gotta be SAFE: 分子设计的新框架

TL;DR通过引入序列附加式片段嵌入(SAFE)作为化学结构的新型线型表示方法,我们有效地解决了传统分子字符串表示(如 SMILES)对人工智能驱动的分子设计所带来的挑战,同时简化了复杂的生成任务,并且通过在具有片段约束的设计中进行自回归生成,消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型,我们展示了 SAFE 的有效性,并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径,为人工智能驱动的分子设计带来突破性进展。