利用大规模预训练语言模型建模蛋白质

KDDAug, 2021

利用大规模预训练语言模型建模蛋白质

Modeling Protein Using Large-scale Pretrain Language Model

Yijia Xiao, Jiezhong Qiu, Ziang Li, Chang-Yu Hsieh, Jie Tang

TL;DR使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Abstract

protein is linked to almost every life process. Therefore, analyzing the biological structure and property of protein sequences is critical to the exploration of life, as well as disease detection and drug discov

protein deep learning biological datasets language models evolutionary information

发现论文，激发创造

蛋白结构建模与设计中的深度学习

该综述总结了近年来将深度学习技术应用于蛋白质结构建模及设计问题的最新进展，讨论了已经出现和需解决的挑战，针对该领域提出了许多有益的见解。

Jul, 2020

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

基于结构信息的蛋白质语言模型

通过将远程同源检测集成到蛋白质语言模型中，我们实现了将结构信息融入蛋白质语言模型，从而在蛋白质功能预测任务中提高了功能注释准确性。

Feb, 2024

大语言模型在提取分子相互作用和通路知识方面的比较性能评估

利用大型语言模型自动从相关科学文献中提取知识，研究识别蛋白质相互作用、通路和基因调控关系的任务效果，并评估不同模型的性能，讨论了该方法的未来机遇和挑战。

Jul, 2023

赋予蛋白质语言模型结构知识

利用蛋白质结构数据提升蛋白质语言模型的新框架，通过整合结构信息和结构提取模块，优化了预训练语言模型的自注意机制，此框架在蛋白质功能预测上表现优越，为蛋白质建模提供更有效和高效的方法。

Jan, 2024

PEvoLM：蛋白质序列演化信息语言模型

该研究使用嵌入语言模型（ELMo）将蛋白质序列转化为数字向量表示，引入一种新颖的双向语言模型（bi-LM）以降低参数数量并使用单一路径进行预测，同时进行多任务学习以获取蛋白质序列的进化信息。

Aug, 2023

蛋白质语言模型与结构预测：联系与进展

本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Nov, 2022

大型语言模型用于蛋白质理解的微调数据集和基准评估

通过整合前期训练模型和预训练的语言模型，本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。

Jun, 2024

建模蛋白质 - 蛋白质相互作用的深度学习方法生态系统的发展

综述介绍了利用深度学习模型分析蛋白质相互作用的多样性方法，包括基于生物物理学知识的模型、表示学习、几何深度学习和生成模型，并指出了面临的挑战和新的研究方向。

Oct, 2023