通过综述最新的生成式人工智能在可控蛋白序列设计方面的进展,本文提出了蛋白质工程、生成式人工智能、蛋白序列设计、优化算法和研究机会等关键词,以及未解决的挑战。
Feb, 2024
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
该综述总结了近年来将深度学习技术应用于蛋白质结构建模及设计问题的最新进展,讨论了已经出现和需解决的挑战,针对该领域提出了许多有益的见解。
Jul, 2020
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
利用人工智能等方法进行蛋白质工程和全新设计的研究方案,如生成模型和扩散过程,能够生成展现出所需特性和功能的全新而真实的蛋白质,在优先测试设计方案方面仍然面临一些挑战,因此需要综合生物化学知识提高性能和可解释性。
Oct, 2023
本文提出了三种生成神经网络方法,用于生成 DNA 序列,并调整其具有期望的性质。这些工具捕捉到数据的重要结构,并在设计蛋白质结合微阵列探针时,生成具有超越训练数据的性能的新序列。我们相信这些结果为将深层生成模型应用于推进基因组学研究开辟了新的空间。
Dec, 2017
通过机器学习指导的定向进化方法,可以更快速地探索突变多个位点编码的序列空间,从而大大提高通过蛋白工程实现梳理蛋白质序列空间的效率和多样性。在以人类 GB1 结合蛋白为例的实验中,机器学习指导的定向进化找到比其他定向进化方法更好的变异体,并成功地创造出合成两种可能的产物对映体的酶,通过两轮进化得到了催化选择性分别为 93%和 79%的变异体。
Feb, 2019
本文探究将深度学习神经网络应用于蛋白质设计,以预测蛋白质中每个残基上 20 种天然氨基酸的几率,并且以网络输出为残基类型约束,顺利提高 Rosetta 工具设计三种天然蛋白质的平均序列一致性,同时相比早期方法,本研究以多层神经网络构建的方法在序列一致性方面提高了约 3% 的准确率,这些结果将推动计算蛋白质设计方法的进一步发展。
Jan, 2018
本文引入了一种生成模型,旨在设计具有特定 3D 结构和化学性质的蛋白质,以实现特定的功能。通过实验数据全面学习,该模型可生成全原子骨架构象以及序列和侧链预测,实现了分子生成建模方法的显著扩大。
May, 2022
使用大规模的语言模型,可以从蛋白质序列中准确捕捉到进化信息,并在标记层和序列层任务中取得了显着的改进。
Aug, 2021