通过编码器 - 解码器语言模型有条件生成成对抗体链序列
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
我们提出了 IgBert 和 IgT5,这两个迄今为止最好的抗体特异性语言模型,在设计更好的治疗方法方面,能持续处理成对和不成对的变量区域序列作为输入,并且在抗体工程的多样化设计和回归任务上,这些模型胜过了现有的抗体和蛋白质语言模型。这一进展在利用机器学习、大规模数据集和高性能计算增强抗体治疗方法的设计方面迈出了重要的一步。
Mar, 2024
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
蛋白质语言模型和化学语言模型可以学习蛋白质的原子级表示,实现无限制的蛋白质生成,包括修改侧链和生成蛋白质 - 药物结合物,展示了语言模型在原子级别的生物分子设计的潜力。
Aug, 2023
本研究使用 Transformers 和 Large Language Models (LLMs) 开发了 GPCR-BERT 模型,用于理解 G 蛋白偶联受体 (GPCRs) 的顺序设计,揭示了氨基酸序列、配体选择性和构象模体之间的关系,并通过对模型的注意权重和隐藏状态的解释,实现了在掩蔽氨基酸类型方面的精确预测,同时分析了三维结构中的高阶相互作用。
Oct, 2023
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
本文提出了一种基于预训练模型的计算抗体设计方法,通过对抗体序列数据的预先训练,结合一种一次性的序列 - 结构生成方法和精心设计的模块,成功地生成了具有高性能的抗原特异性抗体。
Oct, 2022
我们提出了 ProtLLM,这是一个通用的跨模态大语言模型,用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制,能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外,我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表,我们使模型能够从大量候选项中预测不仅自然语言,还包括蛋白质。另外,我们构建了一个大规模的交织蛋白质 - 文本数据集,名为 InterPT,用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源,从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM,并探索了其新颖的蛋白质语言应用。实验证明,ProtLLM 不仅在蛋白质中心任务上表现出卓越性能,并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。
Feb, 2024
蛋白质 - 蛋白质相互作用的预测对于理解生物功能和疾病发展至关重要,本文介绍了一种基于大型语言模型的新框架 ProLLM,利用 ProCoT 蛋白质推理过程作为自然语言提示,通过结构化数据和自然语言的映射,实现了有效的间接连接蛋白质的预测,从上游到下游追踪蛋白质间的生物信号传递路径。
Mar, 2024