ProteinGPT:用于蛋白质属性预测和结构理解的多模态大型语言模型
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白LM -嵌入(ProtT5)能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
使用图神经网络和大型语言模型在编码器-解码器框架中,本研究提出了一种新颖的方法Prot2Text,以自由文本形式预测蛋白质的功能,超越传统的二分类或多分类任务,该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型,实现了对蛋白质功能的整体表示,提供了详细准确的描述,通过从SwissProt中提取多模态蛋白质数据集对模型进行评估,结果表明了多模态模型的转变性影响,特别是图神经网络和大型语言模型的融合,为研究人员提供了更准确预测蛋白质功能的强大工具,代码、模型和演示将公开发布。
Jul, 2023
通过创新的预训练框架,提出了一个统一的蛋白质语言模型xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过1000亿个参数和1万亿个训练标记的前所未有的规模。在18个蛋白质理解基准测试中,xTrimoPGLM明显优于其他先进基准,能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的3D结构预测能力。此外,xTrimoPGLM不仅可以根据自然原理生成全新的蛋白质序列,还可以在有监督的精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在理解和生成蛋白质序列方面的重大能力和多功能性,在蛋白质科学基础模型的发展中具有重要意义。
Jan, 2024
利用蛋白质结构数据提升蛋白质语言模型的新框架,通过整合结构信息和结构提取模块,优化了预训练语言模型的自注意机制,此框架在蛋白质功能预测上表现优越,为蛋白质建模提供更有效和高效的方法。
Jan, 2024
ProtChatGPT通过自然语言学习和理解蛋白质结构,使用户能够上传蛋白质、提问和进行互动对话以生成全面答案,为蛋白质研究提供了新的可能性。
Feb, 2024
ProtT3是一个框架,通过将Protein Language Models作为其蛋白质理解模块,使语言模型能够理解氨基酸序列,并实现有效的蛋白质到文本生成。
May, 2024
通过整合前期训练模型和预训练的语言模型,本研究提出了ProteinLMDataset数据集和ProteinLMBench基准数据集,用于提升大型语言模型在蛋白质序列理解方面的能力,并通过实验证明其在蛋白质理解能力方面超越了GPT-4。
Jun, 2024
利用MolecularGPT,基于大规模语言模型对分子指令进行微调,并通过零样本和少样本的上下文学习,在少样本分子预测任务中取得新的竞争性结果,显示出语境推理能力优势,超过传统的图神经网络方法和现有语言模型基线,为语言模型在少样本分子特性预测中的应用发展提供了潜力。
Jun, 2024
本研究解决了在蛋白质序列生成中可用数据有限的问题,通过重新训练包括Mistral-7B、Llama-2-7B、Llama-3-8B和gemma-7B在内的预训练大型语言模型,使其能够生成生物上合理的蛋白质结构。研究结果表明,即使在仅有42,000个独特人类蛋白质序列的数据集上,这些模型的表现与使用数百万蛋白质序列训练的专业模型相当,推动了计算生物学领域的透明度和合作。
Aug, 2024
本研究解决了大语言模型在蛋白质工程中未充分利用其与自然语言的相似性的问题。提出的TourSynbio-7B模型无需外部蛋白编码器,能够内在理解蛋白质,从而提高了性能和模型的简便性。通过成功的蛋白质工程案例,展示了该模型及其代理的有效性和潜在影响。
Aug, 2024