ProTranslator:零样本蛋白功能预测的文本描述方法
使用图神经网络和大型语言模型在编码器 - 解码器框架中,本研究提出了一种新颖的方法 Prot2Text,以自由文本形式预测蛋白质的功能,超越传统的二分类或多分类任务,该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型,实现了对蛋白质功能的整体表示,提供了详细准确的描述,通过从 SwissProt 中提取多模态蛋白质数据集对模型进行评估,结果表明了多模态模型的转变性影响,特别是图神经网络和大型语言模型的融合,为研究人员提供了更准确预测蛋白质功能的强大工具,代码、模型和演示将公开发布。
Jul, 2023
本文提出了一种使用深度学习从蛋白质序列及其相互作用网络中预测蛋白质功能的方法,并结合 Gene Ontology 分类蛋白质功能。实验表明该方法能够显著提高蛋白质功能预测的准确性,特别是细胞定位的预测。
May, 2017
利用 1.2B 的参数语言模型 ProGen,将蛋白质工程视为无监督的序列生成问题,以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合,从而生成出更具有进化多样性的序列,为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。
Mar, 2020
从蛋白质互作网络出发,通过减少与不同分类的互作蛋白质的数量来为蛋白质分配功能类别,该方法在酵母细胞蛋白质相互作用网络中得到应用并经过删除 / 插入互作关系的测试,在大量未分类蛋白质存在的情况下具有鲁棒性。
Jun, 2003
自动蛋白质功能预测是一项大规模多标签分类问题,它旨在通过自动化蛋白质富集分析,消除对耗时的湿实验方法的依赖。通过仅使用蛋白质序列进行预测的方法逐渐提高可靠性和降低计算成本。因此,我们提出了一种基于序列的层次预测方法 DeepGATGO,它以层次化的方式处理蛋白质序列和 GO 术语标签,并利用图形注意力网络(GATs)和对比学习进行蛋白质功能预测。实验证明,我们提出的模型在大规模数据集上的 GO 术语富集分析中具有更好的可扩展性。
Jul, 2023
利用从蛋白质数据库中提取的文本注释进行生成以及多模态对齐,PAAG(Protein-Annotation Alignment Generation)是一个多模态蛋白质设计框架,可以显式地在序列空间中生成带有特定领域条件的蛋白质,并且可以设计具有不同类型注释的新型蛋白质。与现有模型相比,PAAG 的实验结果在 7 个预测任务中显示出对齐蛋白质表示的优越性,并且在生成成功率方面显著提高(锌指蛋白为 24.7%对比 4.7%,免疫球蛋白结构域为 54.3%对比 8.7%)。
Apr, 2024
蛋白质功能注释是生物学中一个重要且具有挑战性的任务。最近的深度学习进展显示出通过学习蛋白质序列和结构,准确预测功能的巨大潜力。然而,这些基于预测器的方法通常忽视了蛋白质相似性建模,这是传统方法中使用序列或结构检索工具常用的思路。为了填补这一空白,我们首先通过在蛋白质功能注释任务上对比使用预测器的基准方法与使用检索器的方法,研究了蛋白质相似性建模的效果。我们的结果显示,无需大规模预训练,检索器可以与或胜过预测器。基于这些见解,我们引入了一种新颖的变分伪似然框架 ProtIR,旨在通过引入蛋白质相似性建模来改善功能预测器。该框架通过迭代地改进功能预测器和检索器之间的知识来结合两者的优势。ProtIR 在改良的预测器方法上展示了约 10% 的改进效果,并且在性能上与基于蛋白质语言模型的方法相媲美,而无需进行大量的预训练,突显了我们框架的有效性。代码将在接受后发布。
Feb, 2024
提出了一种多模态框架 ProteinDT,旨在改进蛋白设计。通过结合文本信息和蛋白表征,该框架在蛋白性质预测和生成方面取得了令人满意的结果,并构建了一个大型数据集 SwissProtCLAP 来训练模型。
Feb, 2023
InstructProtein 是一种具备双向生成能力的语言模型,用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成,通过预训练和基于知识图谱的指导数据生成框架,解决了蛋白质序列理解和人类语言理解之间的差距。
Oct, 2023
我们提出了一种融合功能感知域表示和域关联对比学习策略的协同集成方法,通过将域与 GO 项作为功能先验与域嵌入进行预训练,然后基于连续关联的域将蛋白质划分成多个子视图并使用新型三元组 InfoNCE 损失进行对比训练,明显且全面地超越了各种基准方法,在区分携带不同功能的蛋白质方面与竞争者有明显差异。
May, 2024