Tranception: 利用自回归转换器和推断时检索进行蛋白质适应性预测
利用基于语言模型的灵活深度学习策略,基于一个完全基于提示的模型,将 transformer 和图卷积架构集成到因果多头图机制中,实现一个生成预训练模型,用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务,并可用于设计具有这些特性的蛋白质,这个模型展现了多任务和协同作用的应用价值。
May, 2023
本文提出了基于 MSA 的蛋白质变换器,是一种基于多序列比对的蛋白质序列生成模型,能够准确地建模表观效应和插入缺失,并且相比已有的基于专用家族模型的方法,其泛化性能更好,尤其在 MSAs 很小的情况下表现出色,能够精确推断和高效采样。
Apr, 2022
本研究通过转换神经网络来实现蛋白质序列与三级结构的联合表示,进而提高了与功能相关的预测任务的表现,包括超家族成员预测。
Jun, 2022
提出了一种全新的蛋白质进化转换器(PoET), 它是一种自回归生成整个蛋白家族的模型,可以用作检索嵌入式语言模型,从而生成和评分任意修饰物,并对深度突变扫描数据集进行广泛实验,可以改善所有 MSA 深度的蛋白质变体效应预测。
Jun, 2023
本文提出了一种新的预训练框架,它将用于蛋白质主体结构和三级结构的序列和几何分析器级联,模拟野生型蛋白质的自然选择并评估变体的效果,以指导遗传突变方向,实现所需特征,提出了一种新的变体影响预测方法,其预测结果在单点和深部变异方面表现良好。
Jun, 2023
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
通过创新的预训练框架,提出了一个统一的蛋白质语言模型 xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中,xTrimoPGLM 明显优于其他先进基准,能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的 3D 结构预测能力。此外,xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列,还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性,在蛋白质科学基础模型的发展中具有重要意义。
Jan, 2024
我们探索了可解释的人工智能(XAI)如何帮助揭示神经网络在蛋白质功能预测中的内部运作,通过扩展广泛使用的 XAI 方法 —— 集成梯度,使得可以检查 Gene Ontology 术语和酶委员会编号预测中微调的 Transformer 模型内部的潜在表示。
Sep, 2023