本文提出一种少样本学习的方法来设计新的功能性蛋白质,该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升,且该方法可以轻松应用在其他蛋白质工程和设计问题中。
May, 2023
本研究提出一个基于量子算法的 EM 算法版本,用于解决高维 Gaussian 混合模型拟合问题,相较于传统算法有更快的收敛速度和更高的精度,并且能够推广到指数族分布,提供同样的计算保障。
Aug, 2019
本研究使用 ESM2 最先进的蛋白质语言模型,并结合蛋白质家族分类和基于社区传播的聚类算法,改善了全局蛋白质表示和局部氨基酸准确性,从而大幅提升蛋白质表达质量,并在多个下游实验中取得了最先进的结果。
Apr, 2024
该论文综述了近期将机器学习应用于蛋白质序列优化的发展,重点介绍了深度生成方法对这一过程的促进作用。
Apr, 2021
蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要,本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列,利用强化学习和最优化方法进行体系建模,实验证明强化学习在生物序列设计方面具有很大潜力。
Jul, 2024
本文提出了基于 MSA 的蛋白质变换器,是一种基于多序列比对的蛋白质序列生成模型,能够准确地建模表观效应和插入缺失,并且相比已有的基于专用家族模型的方法,其泛化性能更好,尤其在 MSAs 很小的情况下表现出色,能够精确推断和高效采样。
Apr, 2022
该研究提出了一种基于属性引导变分自编码器的模型优化技术来设计具有期望性质的蛋白序列,并在实验与半合成蛋白质数据集上进行了全面的基准测试,表明该技术具有鲁棒性,能够有效地应对实验结果不够均衡的问题。
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
该研究使用嵌入语言模型(ELMo)将蛋白质序列转化为数字向量表示,引入一种新颖的双向语言模型(bi-LM)以降低参数数量并使用单一路径进行预测,同时进行多任务学习以获取蛋白质序列的进化信息。
Aug, 2023
本文介绍了一种新型的蛋白质构象采样方法,它使用基于分数的生成模型(SGMs)训练的多层分数函数直接采样构象,以弥补传统 MD 仿真过程中采样样本不足的问题,并通过在多个基准系统上进行比较,证明了该方法的有效性。
Jun, 2023