文本引导的蛋白质设计框架

Feb, 2023

A Text-guided Protein Design Framework

Shengchao Liu, Yutao Zhu, Jiarui Lu, Zhao Xu, Weili Nie...

TL;DR提出了一种多模态框架 ProteinDT，旨在改进蛋白设计。通过结合文本信息和蛋白表征，该框架在蛋白性质预测和生成方面取得了令人满意的结果，并构建了一个大型数据集 SwissProtCLAP 来训练模型。

Abstract

Current ai-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins' high-level properties. Yet, whether the incorporation of such text data can help prot

ai-assisted protein design textual descriptions multi-modal framework proteindt swissprotclap

发现论文，激发创造

ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

ProtT3 是一个框架，通过将 Protein Language Models 作为其蛋白质理解模块，使语言模型能够理解氨基酸序列，并实现有效的蛋白质到文本生成。

May, 2024

Prot2Text: GNNs 与 Transformers 实现的多模态蛋白质功能生成

使用图神经网络和大型语言模型在编码器 - 解码器框架中，本研究提出了一种新颖的方法 Prot2Text，以自由文本形式预测蛋白质的功能，超越传统的二分类或多分类任务，该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，实现了对蛋白质功能的整体表示，提供了详细准确的描述，通过从 SwissProt 中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合，为研究人员提供了更准确预测蛋白质功能的强大工具，代码、模型和演示将公开发布。

Jul, 2023

MMDesign：多模态迁移学习用于生成蛋白质设计

MMDesign 是一个结合了先前结构模块和语境模块的预训练模型的新型蛋白质设计范式，利用自编码器（AE）语言模型将蛋白质序列的先验语义知识纳入其中，并引入了一种跨层跨模态对齐算法来确保结构模块学习到长期时间信息并保持结构和语境模态的一致性，在仅使用小规模 CATH 数据集进行训练的实验结果表明，我们的 MMDesign 框架在各种公共测试集上始终优于其他基线方法，并提出了系统性定量分析技术来评估生成的蛋白质序列和数据分布的生物可能性，以展示其可解释性并揭示蛋白质设计的规律。

Dec, 2023

具有本地域对齐的功能蛋白设计

利用从蛋白质数据库中提取的文本注释进行生成以及多模态对齐，PAAG（Protein-Annotation Alignment Generation）是一个多模态蛋白质设计框架，可以显式地在序列空间中生成带有特定领域条件的蛋白质，并且可以设计具有不同类型注释的新型蛋白质。与现有模型相比，PAAG 的实验结果在 7 个预测任务中显示出对齐蛋白质表示的优越性，并且在生成成功率方面显著提高（锌指蛋白为 24.7％对比 4.7％，免疫球蛋白结构域为 54.3％对比 8.7％）。

Apr, 2024

使用等变平移技术进行蛋白质序列和结构联合设计

本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器，能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态，从而设计高保真度的蛋白质的新方法。实验结果表明，该方法在多项任务上均优于现有基线算法，而且比基于抽样的方法更快且可靠。

Oct, 2022

InstructProtein: 通过知识指导对齐人类和蛋白质语言

InstructProtein 是一种具备双向生成能力的语言模型，用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成，通过预训练和基于知识图谱的指导数据生成框架，解决了蛋白质序列理解和人类语言理解之间的差距。

Oct, 2023

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

ProtChatGPT: 面向理解蛋白质的大型语言模型

ProtChatGPT 通过自然语言学习和理解蛋白质结构，使用户能够上传蛋白质、提问和进行互动对话以生成全面答案，为蛋白质研究提供了新的可能性。

Feb, 2024

ProtAgents: 基于大型语言模型的物理与机器学习结合的蛋白质发现

基于大语言模型 (LLMs) 的 ProtAgents 平台引入多个具有不同能力的 AI 智能体，通过动态环境下的协同工作，致力于解决多目标的蛋白质设计与分析问题，展示了 LLMs 在材料领域中发挥的潜力，并为自主材料发现与设计开辟了新的途径。

Jan, 2024