- ProteinEngine: 通过领域知识强化 LLM 在蛋白工程中的应用
ProteinEngine 是一个人为中心的平台,通过 API 调用来集成相关工具、软件和包,分配任务、解决专业任务和有效沟通结果,验证了其在蛋白工程任务中提高深度学习可靠性和精确性的优越性,并展示了在未来蛋白工程研究中整合分散工具的潜力。
- EvolMPNN: 通过进化编码预测同源蛋白质的突变效应
为了预测蛋白质属性,我们提出了 EvolMPNN,即进化感知的消息传递神经网络,通过采样锚定蛋白质集合、计算进化信息以及不可微分的进化感知聚合方案,学习进化感知的蛋白质嵌入,并将其与序列嵌入相结合,生成综合蛋白质嵌入,该模型在性能和推理速度 - 可控蛋白质序列设计的生成式人工智能:综述
通过综述最新的生成式人工智能在可控蛋白序列设计方面的进展,本文提出了蛋白质工程、生成式人工智能、蛋白序列设计、优化算法和研究机会等关键词,以及未解决的挑战。
- AAAI基于树搜索的进化赌博机算法用于蛋白质序列优化
利用树搜索和强化学习模型,提高蛋白质工程过程的效率,并在实验中展示了其样本高效和小突变数量下找到顶级设计的能力。
- 面向使用 SE (3)- 离散扩散的核酸和蛋白质复合物的联合序列结构生成
MMDiff 是一种能同时设计核酸和蛋白质复合物的生成模型,对于蛋白质工程和大分子设计等领域具有重要意义。
- 用于全新蛋白质设计的生成式人工智能
利用人工智能等方法进行蛋白质工程和全新设计的研究方案,如生成模型和扩散过程,能够生成展现出所需特性和功能的全新而真实的蛋白质,在优先测试设计方案方面仍然面临一些挑战,因此需要综合生物化学知识提高性能和可解释性。
- ICML利用等变图神经网络预测蛋白质变异体
通过使用改良版图神经网络和序列为基础的方法进行比较,本文旨在填补预测最优蛋白变体的结构和基序方法之间的研究缺口,结果显示出使用这种新方法在训练更少的分子数量时实现了接近基序方法的竞争性性能,此外,将结构预训练模型与测定的标记数据相结合,可以 - 盲突变影响预测的多级蛋白质表示学习
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
- 利用进化抽样改进基于少样本学习的蛋白质工程
本文提出一种少样本学习的方法来设计新的功能性蛋白质,该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升,且该 - 对比损失作为全局上表观互作的广义模型
通过对全局阴性相互作用模型使用对比损失函数技术,文章提出并验证该技术可以在有限的数据量下,精确地估计排名函数,并具有在常规均方误差损失函数无效的情况下提高性能的实际效用。
- ProtFIM: 基于蛋白质语言模型的填空中间蛋白质序列设计
通过设计一个新的基准(SEIFER)来评估现有的蛋白质语言模型,研究显示,通过中间填充转换(ProtFIM)训练的语言模型更适合蛋白质工程,并能够产生良好的蛋白质表示。
- 通过迭代改进实现可控外推序列生成
本文研究了超出训练集范围的属性值控制生成问题,并提出了一种名为迭代控制外推的模型,用于解决蛋白质设计中的生成新序列问题,实验结果表明这种方法在 ACE2 稳定性和 AAV 适应性等任务中比现有方法表现更优秀。
- ICMLFold2Seq: 一种基于序列(1D)- 折叠(3D)嵌入的蛋白设计生成模型
本研究提出了一种名为 Fold2Seq 的基于转换器的生成框架,以设计新的蛋白质序列并获得所需的三维拓扑折叠形态,结果表明 Fold2Seq 相比现有的最先进方法在速度、覆盖率及可靠性方面具有改进或类似的表现,进一步的应用表明 Fold2S - 利用深度生成模型进行蛋白质序列设计
该论文综述了近期将机器学习应用于蛋白质序列优化的发展,重点介绍了深度生成方法对这一过程的促进作用。
- 图神经网络预训练对蛋白质相互结合亲和力突变效应建模的研究
本研究开发了一种新的基于深度学习的框架 GraphPPI,能够利用图神经网络中提供的特征预测突变对结合亲和力的影响,并在单点和多点突变方面取得了新的最佳性能。
- 基于模型的设计的自动聚焦神谕
数据驱动设计正在广泛应用于蛋白质、小分子和材料工程等领域。然而,设计目标需要进入超出模型训练范围的设计空间, 因此需要针对式样寻找新的候选设计。本文提出了一种自动对焦方法来调整回归模型,以适应训练范围之外的新式样,从而更好地实现数据驱动设计 - ProGen: 蛋白质生成的语言建模
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。