ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

ACLMay, 2024

ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

ProtT3: Protein-to-Text Generation for Text-based Protein Understanding

Zhiyuan Liu, An Zhang, Hao Fei, Enzhi Zhang, Xiang Wang...

TL;DRProtT3 是一个框架，通过将 Protein Language Models 作为其蛋白质理解模块，使语言模型能够理解氨基酸序列，并实现有效的蛋白质到文本生成。

Abstract

language models (LMs) excel in understanding textual descriptions of proteins, as evident in biomedical question-answering tasks. However, their capability falters with raw protein data, such as amino acid sequences, due to a deficit in pretraining on such data. Conversely, Protein

language models protein language models prott3 protein-to-text generation cross-modal projector

发现论文，激发创造

ProtChatGPT: 面向理解蛋白质的大型语言模型

ProtChatGPT 通过自然语言学习和理解蛋白质结构，使用户能够上传蛋白质、提问和进行互动对话以生成全面答案，为蛋白质研究提供了新的可能性。

Feb, 2024

ProtLLM：一种蛋白质与语言相互交织的蛋白质语言模型，以蛋白质作为词的预训练

我们提出了 ProtLLM，这是一个通用的跨模态大语言模型，用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制，能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外，我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表，我们使模型能够从大量候选项中预测不仅自然语言，还包括蛋白质。另外，我们构建了一个大规模的交织蛋白质 - 文本数据集，名为 InterPT，用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源，从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM，并探索了其新颖的蛋白质语言应用。实验证明，ProtLLM 不仅在蛋白质中心任务上表现出卓越性能，并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。

Feb, 2024

Prot2Text: GNNs 与 Transformers 实现的多模态蛋白质功能生成

使用图神经网络和大型语言模型在编码器 - 解码器框架中，本研究提出了一种新颖的方法 Prot2Text，以自由文本形式预测蛋白质的功能，超越传统的二分类或多分类任务，该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，实现了对蛋白质功能的整体表示，提供了详细准确的描述，通过从 SwissProt 中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合，为研究人员提供了更准确预测蛋白质功能的强大工具，代码、模型和演示将公开发布。

Jul, 2023

文本引导的蛋白质设计框架

提出了一种多模态框架 ProteinDT，旨在改进蛋白设计。通过结合文本信息和蛋白表征，该框架在蛋白性质预测和生成方面取得了令人满意的结果，并构建了一个大型数据集 SwissProtCLAP 来训练模型。

Feb, 2023

大型语言模型用于蛋白质理解的微调数据集和基准评估

通过整合前期训练模型和预训练的语言模型，本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。

Jun, 2024

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

通过创新的预训练框架，提出了一个统一的蛋白质语言模型 xTrimoPGLM，能够同时处理蛋白质理解和生成任务，拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中，xTrimoPGLM 明显优于其他先进基准，能够提供蛋白质结构的原子分辨率视图，并超越现有基于语言模型的工具的 3D 结构预测能力。此外，xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列，还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性，在蛋白质科学基础模型的发展中具有重要意义。

Jan, 2024

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

面向语言模型中的三维分子 - 文本解释

通过在语言模型中嵌入 3D 分子编码器，我们提出了 3D-MoLM：3D 分子语言建模，用于解决语言模型在理解三维分子结构方面的限制，在生物分子领域具有潜力。

Jan, 2024

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024