TSIS:基于片段的分子表示的 t-SMILES 的补充算法
本研究介绍了一种名为 t-SMILES 的分子表示方法,采用基于分子图的全二叉分子树上的 BFS 得到 SMILES 类型字符串描述分子,可结合序列生成模型和图模型的优势,适用于分子生成和设计任务,实验证明 t-SMILES 基于模型表现显著超越了先前提出的基于片段的模型,并且对传统的 SMILES 和图模型具有竞争力。
Jan, 2023
本研究使用 SMILES 语法解析技术从 SMILES 中获取子结构的连接性和类型背景知识并将其注入转换器模型,从而提高了分子属性预测的性能。
Apr, 2022
通过引入序列附加式片段嵌入(SAFE)作为化学结构的新型线型表示方法,我们有效地解决了传统分子字符串表示(如 SMILES)对人工智能驱动的分子设计所带来的挑战,同时简化了复杂的生成任务,并且通过在具有片段约束的设计中进行自回归生成,消除了复杂解码或基于图的模型的需要。通过在包含 11 亿 SAFE 表示的数据集上训练一个类似于 GPT2 的模型,我们展示了 SAFE 的有效性,并证明了我们的 SAFE-GPT 模型具有多样而稳健的优化性能。SAFE 为在各种约束条件下快速探索化学空间打开了新的途径,为人工智能驱动的分子设计带来突破性进展。
Oct, 2023
该研究提出了一种称为 SELFIES 的分子字符串表示法,每个 SELFIES 字符串都对应着一个合法的分子,这种方法可以直接用于任意的机器学习模型中,其生成的分子候选集合法且多样性更高,并且允许更好的解释和解读生成模型的内部机制。
May, 2019
该研究探讨了化学中的自然语言处理与机器学习的应用,重点介绍了一种新的分子语言 SELFIES,并提出了 16 个具体的未来项目计划,以发掘分子字符串表示在化学和材料科学中的潜力。
Mar, 2022
使用 SMILES 枚举技术对分子 QSAR 数据集进行数据增强,使得神经网络训练表现得更好。该技术不仅适用于训练阶段,还能在预测阶段对结果进行进一步提升。
Mar, 2017
提出了一种简单而通用的图像到图像翻译框架,利用归一化层和新提出的特征变换,实现了多模态图像合成并具备任意风格控制的能力,进行了与多个先进方法的比较,证明了其在感知质量和定量评估方面的有效性。
Jul, 2020
本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法,该方法在虚拟筛选和其他药物发现任务中表现出优越性,在小数据集和复杂分析环境中表现良好。
Nov, 2019
本文提出了一种新的无监督学习范例 (Unsupervised Paradigm for SIS, USIS),通过使用自监督分割损失和基于整个图像小波的鉴别方法,结合在小波域中的生成器结构,使得语义图像合成 (SIS) 在不需要大量的配对数据的情况下实现,从而弥补了配对和非配对模型之间的性能差距。在三个具有挑战性的数据集上进行测试,证明了新方法的有效性。
May, 2023
通过结合数据增强技术和词汇简化,我们提出了一种名为 RISS(Readability-guided Idiom-aware Sentence Simplification)的新框架,用于解决中文句子简化面临的挑战,包括缺乏大规模标记平行语料库和惯用语的普遍存在。RISS 通过多阶段和多任务学习策略将 RPS 和 IAS 整合在一起,从而在两个中文句子简化数据集上优于先前的最先进方法。此外,在小型标记数据集上微调后,RISS 还取得了进一步的改进。我们的方法展示了更加有效和可访问的中文文本简化的潜力。
Jun, 2024