蛋白质骨架生成的 SE (3)- 随机流匹配
利用氨基酸序列的丰富生物归纳偏差,FoldFlow-2 是一种新颖的序列条件的 SE (3)- 等变流匹配模型,用于蛋白质结构生成,并通过在一个比以前的 PDB 数据集大一个数量级的新数据集上进行规模训练,改进了无条件生成的设计能力、多样性和新颖性,同时在平衡构象抽样任务上具有泛化性能。
May, 2024
蛋白质设计中,基于模体的脚手架技术用于构建功能性蛋白质,但生成的脚手架缺乏结构多样性,限制了湿实验验证的成功。本研究通过两种互补方法,在使用 FrameFlow 进行脚手架设计时实现了较高成功率和更多结构多样性的脚手架生成。
Jan, 2024
利用 RNA-FrameFlow 首次引入了生成模型,用于 3D RNA 骨架设计,建立起适用于 RNA 建模中的数据准备和评估协议,通过 SE (3) 流匹配的方式对应蛋白质骨架生成的方法进行改进,以处理 RNA 建模中的独特挑战,将 RNA 结构形式化为一组刚体框架和相关的损失函数,通过训练结构聚类和裁剪增强方法,缓解了 3D RNA 数据集缺乏多样性的问题,同时定义了一套评估指标以衡量生成的 RNA 结构在全局上是否自洽一致以及是否恢复了 RNA 特定的结构描述符,其中 RNA-FrameFlow 的最佳版本能够生成 40-150 核苷酸的局部真实的 RNA 骨架,其中超过 40%的 RNA 符合我们的有效性标准,即自洽性 TM 分数大于等于 0.45,两个 RNA 具有相同的全局折叠。开源代码:https://this URL
Jun, 2024
通过引入可伸缩的 E (3)- 等变消息传递体系结构 Semla 和使用流匹配训练的分子生成模型 MolFlow,本研究解决了当前 3D 药物设计中的慢速采样和生成化学有效分子的问题,并且提出了用于无条件分子生成器的新的基准度量方法,最终实验结果表明 MolFlow 显著提升了样本质量和性能。
Jun, 2024
生物蛋白质的功能常依赖于动态结构集合,本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间,利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进,获得了名为 AlphaFlow 和 ESMFlow 的蛋白质结构的序列有条件的生成模型。在 PDB 上经过训练和评估时,我们的方法在精确性和多样性方面相比于具有 MSA 子采样的 AlphaFold 更具优势。当进一步在全原子 MD 的集合上进行训练后,我们的方法能够准确捕捉未知蛋白质的构象灵活性、位置分布和高阶集合观测量。此外,我们的方法可以使静态 PDB 结构多样化,并具有比复制的 MD 轨迹更快的收敛时间,展示了其作为昂贵的基于物理的仿真的替代品的潜力。
Feb, 2024
基于 Flow-matching 的 Frame-to-Frame 生成模型 (F$3$low) 扩展了粗粒化建模方法的领域,通过自交叉采样的方式提升了计算生物学中的模拟效率,并且能够广泛探索构象空间。
May, 2024
我们提出了一种力导向的 SE (3) 扩散模型 ConfDiff,用于蛋白质构象的生成,该模型融合了力导向网络和基于数据的评分模型,能够生成具有多样性且高保真性的蛋白质构象。实验证明,我们的方法在多种蛋白质构象预测任务中优于现有方法。
Mar, 2024
SeqRF 是一种学习技术,通过改善概率流的直线性来减少全局截断误差,加速采样并提高合成质量。在理论和实证研究中,我们观察到了 SeqRF 的直线性属性,并通过 SeqRF 在基于流模型的生成模型上进行的实证评估,在 CIFAR-10、CelebA-$64 imes 64$ 和 LSUN-Church 数据集上取得了优异的结果。
Feb, 2024
通过在附加的扩充维度上执行坐标分割,本文提出了一种保持 SE (3) 和排列等变性的耦合流,能够快速采样和密度评估,并可用于产生对目标分布的期望的无偏估计。同时,本文显示该流模型在相同应用上比等变连续归一化流快两个数量级,并首次成功学习仅通过对原子的笛卡尔位置进行建模从而获得丙氨酸二肽的玻尔兹曼分布。最后,本文展示了该流模型可以通过仅使用粒子系统的能量函数在 DW4 和 LJ13 粒子系统的玻尔兹曼分布上进行近似采样。
Aug, 2023