使用自然语言处理技术进行蛋白质序列分类

Sep, 2024

使用自然语言处理技术进行蛋白质序列分类

Protein sequence classification using natural language processing techniques

Huma Perveen, Julie Weeds

TL;DR本研究旨在解决传统蛋白质功能确定方法时间耗费大且劳动密集的问题，通过采用自然语言处理技术来提高蛋白质序列分类的精度和自动化水平。研究展示了多种机器学习和深度学习模型的应用，发现集成方法，特别是Voting分类器在准确率和F1得分上表现最佳，表明其在蛋白质分类中的重要性和潜力。

Abstract

Proteins are essential to numerous biological functions, with their sequences determining their roles within organisms. Traditional methods for determining protein function are time-consuming and labor-intensive. This study addresses the increasing demand for precise, effective, and automated protein sequence classification methods by employing →

发现论文，激发创造

使用多尺度深度卷积神经网络和下一步条件进行蛋白质二级结构预测

本研究通过深度学习技术，使卷积神经网络适应蛋白二级结构预测问题，达到了70％的准确度，并尝试使用序列到序列学习和集合策略进一步提高精确度。

Nov, 2016

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白LM -嵌入(ProtT5)能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

蛋白质语言模型与结构预测：联系与进展

本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法，介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战，并展望了未来发展方向。

Nov, 2022

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

SBSM-Pro：支持蛋白质的生物序列机器

我们提出了一种支持生物序列机器用于蛋白质分类的模型，该模型通过使用机器学习算法来帮助和引导生物实验，在生物技术应用中提供了重要的洞察。该研究展示了在蛋白质分类领域的最新工作，并为生物序列分类领域的新方向铺平了道路，对于定制的平台开发具有积极意义。

Aug, 2023

蛋白质语言模型中的知识神经元识别

神经语言模型在自然语言处理任务中学习复杂实体表示成为强大工具，然而在计算生物学等领域中，其可解释性仍然是一个重要挑战。本研究旨在通过识别和表征知识神经元增强蛋白质语言模型（特别是ESM模型）的可解释性，通过将ESM模型针对酶序列分类任务进行微调，在比较两种保留原始模型中的子集神经元的知识神经元选择方法方面取得了一致优于随机基准线的结果。尤其是这些方法表明自注意力模块的关键向量预测网络中存在高密度的知识神经元，考虑到关键向量专门用于理解输入序列的不同特征，这些知识神经元可以捕捉不同的酶序列基序知识。未来，可以对每个神经元所捕捉到的知识类型进行表征。

Dec, 2023

大型语言模型用于蛋白质理解的微调数据集和基准评估

通过整合前期训练模型和预训练的语言模型，本研究提出了ProteinLMDataset数据集和ProteinLMBench基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了GPT-4。

Jun, 2024

利用大型语言模型设计蛋白质：增强和比较分析

本研究解决了在蛋白质序列生成中可用数据有限的问题，通过重新训练包括Mistral-7B、Llama-2-7B、Llama-3-8B和gemma-7B在内的预训练大型语言模型，使其能够生成生物上合理的蛋白质结构。研究结果表明，即使在仅有42,000个独特人类蛋白质序列的数据集上，这些模型的表现与使用数百万蛋白质序列训练的专业模型相当，推动了计算生物学领域的透明度和合作。

Aug, 2024

用于研究蛋白质-配体相互作用的自然语言处理方法

本研究解决了蛋白质-配体相互作用（PLI）预测中的方法不足问题，特别是在药物发现与蛋白质工程中的重要性。文章提出了借助自然语言处理（NLP）机器学习方法的创新思路，探讨了其在近期文献中的应用以及相关机制。最重要的发现是，尽管NLP方法在PLI研究中具有潜力，但仍存在显著的局限性和未来需要克服的挑战。

Sep, 2024