ProGen2：探索蛋白质语言模型的界限

Jun, 2022

ProGen2：探索蛋白质语言模型的界限

ProGen2: Exploring the Boundaries of Protein Language Models

Erik Nijkamp, Jeffrey Ruffolo, Eli N. Weinstein, Nikhil Naik, Ali Madani

TL;DR介绍了一套名为 ProGen2 的蛋白质语言模型，它具有 64 亿个参数，在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布，生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。

Abstract

attention-based models trained on protein sequences have demonstrated incredible success at classification and generation tasks relevant for artificial intelligence-driven protein design. However, we lack a sufficient understanding of how very →

protein language models attention-based models progen2 large-scale models protein fitness

发现论文，激发创造

ProGen: 蛋白质生成的语言建模

利用 1.2B 的参数语言模型 ProGen，将蛋白质工程视为无监督的序列生成问题，以此利用缺乏昂贵结构注释的蛋白质的日益增长的集合，从而生成出更具有进化多样性的序列，为解决合成生物学、医学和材料科学等领域的根本问题提供了可能。

Mar, 2020

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

众志成城：用 Genie 2 在结构宇宙的规模上设计和搭建蛋白质

Genie 2 是一种扩展了 Genie 模型来捕捉更大、更多样的蛋白质结构空间的蛋白质扩散模型。在无条件和有条件生成方面，Genie 2 在设计能力、多样性和创新等关键设计指标上均表现出了最先进的性能，同时解决了更多的基于模体脚手架的问题，并提供了更多独特且多样的解决方案，从而为基于结构的蛋白质设计设定了新的标准。

May, 2024

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

逐个原子生成蛋白质及其超越：基于语言模型的研究

蛋白质语言模型和化学语言模型可以学习蛋白质的原子级表示，实现无限制的蛋白质生成，包括修改侧链和生成蛋白质 - 药物结合物，展示了语言模型在原子级别的生物分子设计的潜力。

Aug, 2023

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Apr, 2024

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

Prot2Text: GNNs 与 Transformers 实现的多模态蛋白质功能生成

使用图神经网络和大型语言模型在编码器 - 解码器框架中，本研究提出了一种新颖的方法 Prot2Text，以自由文本形式预测蛋白质的功能，超越传统的二分类或多分类任务，该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，实现了对蛋白质功能的整体表示，提供了详细准确的描述，通过从 SwissProt 中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合，为研究人员提供了更准确预测蛋白质功能的强大工具，代码、模型和演示将公开发布。

Jul, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

大型语言模型用于蛋白质理解的微调数据集和基准评估

通过整合前期训练模型和预训练的语言模型，本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。

Jun, 2024