- 蛋白质表示学习中的序列信息嵌入:是否总能获得更好的性能?
本研究提出了 ProtLOCA 方法,它是一种基于氨基酸结构表示的局部几何对齐方法,通过在蛋白质对全局结构匹配任务中的有效性测试、CATH 标签的独立测试数据集上的性能优于现有序列和结构表示学习方法,快速而准确地匹配结构一致的蛋白质域,还在 - 基于序列扩增的 SE (3)- 流匹配用于条件蛋白质背骨生成
利用氨基酸序列的丰富生物归纳偏差,FoldFlow-2 是一种新颖的序列条件的 SE (3)- 等变流匹配模型,用于蛋白质结构生成,并通过在一个比以前的 PDB 数据集大一个数量级的新数据集上进行规模训练,改进了无条件生成的设计能力、多样性 - ICML在潜空间中使用强化学习进行蛋白质适应性景观的稳健优化
蛋白质是在自然界中负责不同功能的复杂分子。通过使用计算方法进行蛋白质优化仍然具有挑战性,特别是在低适应性序列的情况下。本文提出了一种名为 LatProtRL 的优化方法,它能够有效地遍历由大型蛋白质语言模型学习的潜在空间,通过强化学习在潜在 - SurfPro:基于连续表面的功能蛋白设计
设计具有期望功能的蛋白质可以通过使用 SurfPro 方法来生成具有期望表面和相关生化性质的蛋白质。SurfPro 采用分层编码器逐步建模蛋白质表面的几何形状和生化特征,并使用自回归解码器生成氨基酸序列。我们在标准的逆折叠基准 CATH 4 - 超越 ESM2: 借助高效聚类的图增强蛋白质序列建模
本研究使用 ESM2 最先进的蛋白质语言模型,并结合蛋白质家族分类和基于社区传播的聚类算法,改善了全局蛋白质表示和局部氨基酸准确性,从而大幅提升蛋白质表达质量,并在多个下游实验中取得了最先进的结果。
- 蛋白质性质的不确定性预测
在蛋白质领域,可靠的变异影响预测取得了显著进展,通过提供具备不确定性估计的高斯过程回归模型 Kermut,能够在蛋白质属性预测中获得最先进的性能,并展示了对预测的可靠性定量估计的质量评估结果。
- 多尺度蛋白质语言模型用于统一分子建模
通过在多尺度编码切换的蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,ms-ESM(多尺度 ESM)提出了一种新颖的方法,实现了多尺度统一的分子建模,实验结果表明,ms-ESM 在蛋白质 - 分子任务方面超过了以前的 - 通过蛋白质数据增强改善蛋白质预测模型:一个基准和新方向
数据增强技术被用于蛋白质数据中,通过引入两种新的语义级别蛋白质增强方法,以及将增强技术整合到一个自适应选择增强组合的框架中,通过实验证明 Automated Protein Augmentation(APA)提高了三种架构下五个蛋白质相关任 - 一种利用 Transformer 和 CNN 整合的蛋白质结构预测方法
基于深度学习方法的 DstruCCN 模型采用了卷积神经网络和监督式 Transformer 蛋白质语言模型,通过结合两者的训练特征以预测蛋白质的 Transformer 结合位点矩阵,然后使用能量最小化重构蛋白质的三维结构。
- evolSOM: 使用 SOM 进行进化保守性分析的 R 包
通过使用 Self-Organizing Maps 方法,该研究介绍了 evolSOM 软件包,用于探索和可视化生物变量的保守性,以实现表型和基因型属性的集成。该软件包可自动计算和可视化这些变量之间的位移,从而有效比较和显示保守和位移变量, - AlphaFold 与流匹配相遇:生成蛋白质合集
生物蛋白质的功能常依赖于动态结构集合,本研究通过开发一种基于流动的生成建模方法来学习和采样蛋白质的构象空间,利用 AlphaFold 和 ESMFold 等高精度单状态预测器进行改进,获得了名为 AlphaFlow 和 ESMFlow 的蛋 - 演化算法模拟分子进化:一个新的领域提议
通过将进化算法、机器学习和生物信息学相结合,我们提出了一种计算方法,可以扩展已知功能蛋白家族的词汇表,进而发展出以前从未存在过的全新蛋白质,从而推动计算进化的新子领域的发展。
- NIPSFABind: 快速准确的蛋白质 - 配体结合
通过结合口袋预测和对接,提出了一种名为 FABind 的端到端模型,以实现准确和快速的蛋白质 - 小分子结合。
- 功能几何指导的蛋白质序列和骨架结构联合设计
设计合理的蛋白质序列和结构是至关重要的,我们提出了一种基于功能位点的 NAEPro 模型,该模型通过网络注意力和等变层来联合设计蛋白质序列和结构,在两个层次上进行有效而经济的信息传递,实验证明该模型能够设计出与自然蛋白质序列和结构非常相似且 - SBSM-Pro:支持蛋白质的生物序列机器
我们提出了一种支持生物序列机器用于蛋白质分类的模型,该模型通过使用机器学习算法来帮助和引导生物实验,在生物技术应用中提供了重要的洞察。该研究展示了在蛋白质分类领域的最新工作,并为生物序列分类领域的新方向铺平了道路,对于定制的平台开发具有积极 - OpenProteinSet: 大规模结构生物学训练数据
为了推动蛋白质的机器学习研究进展,我们介绍了一个开源数据集 OpenProteinSet,其中包含超过 1600 万个蛋白质多序列比对,与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应,可广泛用于蛋白质结构、功能、 - 基于自上而下的机器学习法推导蛋白质粗粒度力场
使用分子动力学仿真和可微重要性抽样训练神经网络势能,可以开发出准确和高效的蛋白质粗粒化表示方法,在预测蛋白质动力学、折叠和相互作用等方面具有重要应用价值。
- 蛋白质图形的神经嵌入
本文提出了一种利用图神经网络和自然语言大模型生成结构和序列感知型蛋白质表示的新框架,并将其与传统的基于结构对齐的方法相比较,证明了该方法在比较蛋白质结构和蛋白质结构分类任务中的优越性能。
- DiffPack: 自回归蛋白质侧链填充的扭转扩散模型
DiffPack 是一种扭转扩散模型,可以通过对扭曲空间进行扩散和去噪来学习侧链的扭曲角度联合分布,从而实现精确预测蛋白质侧链构象。该方法在多项基准测试中均取得可观的进展,在 CASP13 和 CASP14 上的角度精度分别提高了 11.9 - 新颖性是否可预测?
探讨如何在机器学习设计中平衡过度信任和不推广创新的问题,特别是在设计具有新性质的蛋白质方面。