基于 SE (3) 流匹配的改进图案框架
利用氨基酸序列的丰富生物归纳偏差,FoldFlow-2 是一种新颖的序列条件的 SE (3)- 等变流匹配模型,用于蛋白质结构生成,并通过在一个比以前的 PDB 数据集大一个数量级的新数据集上进行规模训练,改进了无条件生成的设计能力、多样性和新颖性,同时在平衡构象抽样任务上具有泛化性能。
May, 2024
FoldFlow 是一系列基于流匹配范式的新型生成模型,通过流动匹配 3D 刚体运动(即群 SE (3)),实现对蛋白质主链的准确建模,具备比其他方法更稳定、更快速的训练能力,并可以将任何不变的源分布映射到 SE (3) 上的任何不变的目标分布。
Oct, 2023
利用 E (3)- 等变图神经网络学习分布并通过 SMCDiff 有效地从大量的蛋白质背骨结构中对指定基序进行条件采样构造支架结构,可在保证结构多样性的情况下采样长达 80 个氨基酸残基长度的支架,同时对于固定的基序可获得多样性的构架结构。
Jun, 2022
利用 RNA-FrameFlow 首次引入了生成模型,用于 3D RNA 骨架设计,建立起适用于 RNA 建模中的数据准备和评估协议,通过 SE (3) 流匹配的方式对应蛋白质骨架生成的方法进行改进,以处理 RNA 建模中的独特挑战,将 RNA 结构形式化为一组刚体框架和相关的损失函数,通过训练结构聚类和裁剪增强方法,缓解了 3D RNA 数据集缺乏多样性的问题,同时定义了一套评估指标以衡量生成的 RNA 结构在全局上是否自洽一致以及是否恢复了 RNA 特定的结构描述符,其中 RNA-FrameFlow 的最佳版本能够生成 40-150 核苷酸的局部真实的 RNA 骨架,其中超过 40%的 RNA 符合我们的有效性标准,即自洽性 TM 分数大于等于 0.45,两个 RNA 具有相同的全局折叠。开源代码:https://this URL
Jun, 2024
生物蛋白质的功能常依赖于动态结构集合,本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间,利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进,获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时,我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后,我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外,我们的方法可以使静态 PDB 结构多样化,并具有比复制的 MD 轨迹更快的收敛时间,展示了其作为昂贵的基于物理的仿真的替代品的潜力。
Feb, 2024
浮动锚扩散(FADiff)模型用于构建蛋白质的结构,使其具有所需的基序,以实现疫苗和酶的设计。FADiff 模型可以让基序在扩散过程中自由浮动,从而保证基序的存在并自动设计基序位置。
Jun, 2024
通过统一条件训练和条件采样程序,本文基于数学上理解的 Doob 的 h 转换方法提出了一个新的视角,揭示了现有方法之间的联系,并提出了一种新的改进方法,通过在图像外延和结构基元搭建方面的实验证明了其有效性。
Dec, 2023
通过引入可伸缩的 E (3)- 等变消息传递体系结构 Semla 和使用流匹配训练的分子生成模型 MolFlow,本研究解决了当前 3D 药物设计中的慢速采样和生成化学有效分子的问题,并且提出了用于无条件分子生成器的新的基准度量方法,最终实验结果表明 MolFlow 显著提升了样本质量和性能。
Jun, 2024