重要性加权期望最大化：蛋白质序列设计

Apr, 2023

重要性加权期望最大化：蛋白质序列设计

Importance Weighted Expectation-Maximization for Protein Sequence Design

Zhenqiao Song, Lei Li

TL;DR该研究提出一种机器学习方法 IsEM-Pro，结合潜在生成模型和马尔可夫随机场的组合结构特征，能高效地生成具有所需生物功能的蛋白质序列，相较于之前最优方法平均适应度得分高出至少 55%，并且生成更加多样和新颖的蛋白质序列。

Abstract

Designing protein sequences with desired biological function is crucial in biology and chemistry. Recent machine learning methods use a surrogate sequence-function model to replace the expensive wet-lab validatio

protein sequences machine learning generative model monte carlo expectation-maximization fitness

发现论文，激发创造

利用进化抽样改进基于少样本学习的蛋白质工程

本文提出一种少样本学习的方法来设计新的功能性蛋白质，该方法包括半监督迁移学习生成离散可行解空间和新型进化蒙特卡罗马尔可夫链采样算法更高效地探索可行解空间。我们在实验中展示了该方法设计出的高适应度基因激活剂有着比现有方法显著的命中率提升，且该方法可以轻松应用在其他蛋白质工程和设计问题中。

May, 2023

高斯混合模型的量子期望最大化

本研究提出一个基于量子算法的 EM 算法版本，用于解决高维 Gaussian 混合模型拟合问题，相较于传统算法有更快的收敛速度和更高的精度，并且能够推广到指数族分布，提供同样的计算保障。

Aug, 2019

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Apr, 2024

利用深度生成模型进行蛋白质序列设计

该论文综述了近期将机器学习应用于蛋白质序列优化的发展，重点介绍了深度生成方法对这一过程的促进作用。

Apr, 2021

利用蛋白质语言模型进行序列设计的强化学习

蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要，本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列，利用强化学习和最优化方法进行体系建模，实验证明强化学习在生物序列设计方面具有很大潜力。

Jul, 2024

少样本蛋白生成

本文提出了基于 MSA 的蛋白质变换器，是一种基于多序列比对的蛋白质序列生成模型，能够准确地建模表观效应和插入缺失，并且相比已有的基于专用家族模型的方法，其泛化性能更好，尤其在 MSAs 很小的情况下表现出色，能够精确推断和高效采样。

Apr, 2022

基于属性导向的生成建模技术，用于不平衡数据下的鲁棒模型设计

该研究提出了一种基于属性引导变分自编码器的模型优化技术来设计具有期望性质的蛋白序列，并在实验与半合成蛋白质数据集上进行了全面的基准测试，表明该技术具有鲁棒性，能够有效地应对实验结果不够均衡的问题。

May, 2023

ProGen: 蛋白质生成的语言建模

利用 1.2B 的参数语言模型 ProGen，将蛋白质工程视为无监督的序列生成问题，以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合，从而生成出更具有进化多样性的序列，为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。

Mar, 2020

PEvoLM：蛋白质序列演化信息语言模型

该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Aug, 2023

基于评分的蛋白质分子动力学增强采样

本文介绍了一种新型的蛋白质构象采样方法，它使用基于分数的生成模型（SGMs）训练的多层分数函数直接采样构象，以弥补传统 MD 仿真过程中采样样本不足的问题，并通过在多个基准系统上进行比较，证明了该方法的有效性。

Jun, 2023