超越 ESM2: 借助高效聚类的图增强蛋白质序列建模
通过在多尺度编码切换的蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,ms-ESM(多尺度 ESM)提出了一种新颖的方法,实现了多尺度统一的分子建模,实验结果表明,ms-ESM 在蛋白质 - 分子任务方面超过了以前的方法,展示了蛋白质语言模型的全部利用,进一步的研究发现,通过统一的分子建模,ms-ESM 不仅获得了分子知识,还保留了对蛋白质的理解。
Mar, 2024
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
该研究利用语言生成模型 MSA-Augmenter 及大规模 MSA 技术,微调 AlphaFold2 蛋白质结构预测模型在缺乏同源家族数据库的情况下,生成补充性的未见过的蛋白质序列,从而提高蛋白质结构预测准确性。
Jun, 2023
蛋白质表示学习是一个具有挑战性的任务,旨在从其氨基酸序列中捕获蛋白质的结构和功能。本文提出了一种神经聚类框架,通过考虑蛋白质的一级和三级结构信息来自动发现蛋白质的关键部分,在四个蛋白质相关任务上取得了最先进的表现。
Mar, 2024
通过使用 ESM2 作为输入,ESM-NBR 提出了一种快速准确的序列 - based 方法,采用由双向长短期记忆和多层感知器网络组成的深度学习模型,探索 DNA 和 RNA 结合残基的共有和私有信息。在基准数据集上的实验证明,ESM2 特征表征的预测性能全面优于基于进化信息的隐马尔可夫模型(HMM)特征。此外,ESM-NBR 的预测速度远远超过现有方法(用于 500 个蛋白质序列的时间为 5.52 秒,比第二快的方法快约 16 倍)。
Dec, 2023
介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。
Jun, 2022
利用大型语言模型(LLM),我们引入了一种 ESM 辅助高效方法,将蛋白质序列和结构特征整合在一起,以预测单点突变引起的蛋白质热稳定性变化,并且我们设计了一个经过细致筛选的数据集,以避免数据泄漏,以便更公平地进行模型比较。
Dec, 2023
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
本文研究探讨了 ESM-1b、MSA-Transformer 和 Evoformer 等三种常用蛋白质语言模型的表征能力,重点关注 Evoformer 在蛋白功能预测方面的表现,旨在回答三个关键问题:(i)AlphaFold 中的 Evoformer 能否产生适合预测蛋白功能的表征?(ii)如果可以,Evoformer 能否取代 ESM-1b 和 MSA-Transformer?(iii)这些 PLMs 在多大程度上依赖于与进化有关的蛋白数据?在这方面,它们是否互补?通过实证研究和新的见解和结论进行比较。附有完整的代码和数据集,可供复现。
Jun, 2022
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023