- ICML多图范式支撑的浮动锚扩散模型
浮动锚扩散(FADiff)模型用于构建蛋白质的结构,使其具有所需的基序,以实现疫苗和酶的设计。FADiff 模型可以让基序在扩散过程中自由浮动,从而保证基序的存在并自动设计基序位置。
- 基于模型的蛋白质骨架设计的强化学习
利用 AlphaZero 在蛋白质主链设计中的应用,展示了其出色的性能,不仅显著超越了现有方法,在蛋白质主链设计任务中提高了 100% 以上,而且通过引入次要目标,还揭示了更多有前景的结果,显示了模型驱动的强化学习在蛋白质设计的精确和微妙方 - 利用语言模型嵌入进行蛋白质序列生成的扩散
利用连续扩散和蛋白质语言模型 ESM-2 推导的嵌入,在无条件生成方面超越了当前的解决方案,进一步评估了生成的蛋白质序列的质量、多样性、分布相似性和生物相关性,并提供了一个可扩展且高质量的蛋白质序列生成框架,从而推动了蛋白质设计领域的发展。
- 基于 SE (3) 流匹配的改进图案框架
蛋白质设计中,基于模体的脚手架技术用于构建功能性蛋白质,但生成的脚手架缺乏结构多样性,限制了湿实验验证的成功。本研究通过两种互补方法,在使用 FrameFlow 进行脚手架设计时实现了较高成功率和更多结构多样性的脚手架生成。
- 一种用于条件扩散建模的框架及其在蛋白设计中的应用
通过统一条件训练和条件采样程序,本文基于数学上理解的 Doob 的 h 转换方法提出了一个新的视角,揭示了现有方法之间的联系,并提出了一种新的改进方法,通过在图像外延和结构基元搭建方面的实验证明了其有效性。
- MMDesign:多模态迁移学习用于生成蛋白质设计
MMDesign 是一个结合了先前结构模块和语境模块的预训练模型的新型蛋白质设计范式,利用自编码器(AE)语言模型将蛋白质序列的先验语义知识纳入其中,并引入了一种跨层跨模态对齐算法来确保结构模块学习到长期时间信息并保持结构和语境模态的一致性 - ForceGen: 基于非线性力学展开响应的蛋白质语言扩散模型的端到端全新蛋白质生成
通过深度学习的生成模型,预测蛋白质设计以满足复杂的非线性力学特性设计目标,并通过分子模拟验证展示出设计的蛋白质在力学性质方面的新颖性和达到的目标力学特性,为探索巨大的力学生物学蛋白质序列空间提供了快速的途径。
- 随机环境下的预期流网络与两人零和游戏
生成流网络(GFlowNets)在多个结构化对象生成任务中取得成功,并扩展到包括蛋白质设计在内的随机环境,提出了预期流网络(EFlowNets)和对抗性流网络(AFlowNets)分别用于两人零和游戏,表明后者在 Connect 4 比赛中 - 基于图形的蛋白质序列和结构的联合设计
本研究论文提出了一种名为 GeoPro 的方法,用于联合设计蛋白质骨架结构和序列。该方法基于三维骨架结构的等变编码器和由三维几何图形指导的蛋白质序列解码器。实验证明,在两个重要的生物金属蛋白数据集上,GeoPro 在大多数度量标准上优于其他 - 利用基于图形平滑的 Gibbs 采样进行蛋白质适应性优化
本文提出了一种基于 Gibbs 采样和基于图形平滑的方法,旨在消除对变异距离的限制并实现高效探索,该方法在从训练集获得的高适应性蛋白质的发现方面处于领先地位。
- 扩散模型中实用且渐近精确的条件抽样
本文提出了一种名为 Twisted Diffusion Sampler 的串行蒙特卡罗算法用于生成条件分布,该算法具有更高的计算效率和更准确的近似度,并成功应用于蛋白质设计。
- PoET: 蛋白家族的生成模型,作为序列组成的序列
提出了一种全新的蛋白质进化转换器(PoET), 它是一种自回归生成整个蛋白家族的模型,可以用作检索嵌入式语言模型,从而生成和评分任意修饰物,并对深度突变扫描数据集进行广泛实验,可以改善所有 MSA 深度的蛋白质变体效应预测。
- 带有引导离散扩散的蛋白质设计
本文提出了一种基于 NOS 和 LaMBO-2 的蛋白质设计方法,使用离散扩散模型、编辑限制和多目标贝叶斯优化实现了高表达率和高亲和力抗体的优化设计。
- 知识设计:通过知识改进推动蛋白质设计的极限
本研究提出了基于预训练模型和知识感知模块的蛋白质设计方法,在 CATH、TS50 和 TS500 数据集上比以前的 PiFold 方法提高了约 9% 的性能,实现了 60% 以上的恢复率,并通过额外的分析证明了该方法的有效性。
- 生物信息学中的扩散模型:深度学习革命的新浪潮
本文综述了去噪扩散模型在生物信息学中的应用及其新的发展和应用潜力。
- PiFold:实现高效和有效的蛋白质逆折叠
本论文提出了 PiFold 具有改进恢复能力的新型残基特征提取器和 PiGNN 层,可一次性生成蛋白质序列。实验结果显示,PiFold 能够快速恢复结构,并且在 CATH 4.2,TS50 和 TS500 上的恢复效果也非常好,是以前方法的 - RITA:扩展生成蛋白质序列模型的研究
本文提出了 RITA: 一套自回归的生成模型,用于蛋白质序列,具有高达 12 亿个参数,训练了超过 2.8 亿个属于 UniRef-100 数据库的蛋白质序列。我们首次系统性研究了自回归变压器在蛋白质领域中的能力随着模型大小的发展,我们评估 - 全局上下文生成全新蛋白质设计
该论文介绍了一种新的蛋白质设计方法,叫做全局内容感知生成性蛋白质设计方法(GCA),该方法旨在通过操作全局和局部信息,以获得能够折叠成定义结构的新蛋白质序列。实验结果表明,该方法在全新的蛋白质设计中表现良好,并会发布全新的代码和预训练模型。
- AlphaDesign:一种基于图形的蛋白质设计方法, 并在 AlphaFoldDB 上进行了基准测试
该研究基于 AlphaFold DB 建立了一个新的基于图的基准测试 AlphaDesign,并提出了一种使用蛋白质角度作为新特征、使用简化图变换器编码器(SGT)和使用自信蛋白解码器(CPD)来提高精度的新方法 - ADesign。实验表 - ICLR用于抗体序列 - 结构协同设计的迭代精化图神经网络
本文提出了一种基于生成模型的方法来自动设计具有增强的结合特异性或中和能力的抗体的 CDRs。该方法系统地利用了序列和三维结构之间的关系,并在设计中具有更高的效率和灵活性,最终成功设计出能够中和 SARS-CoV-2 病毒的抗体。