使用自然语言处理技术进行蛋白质序列分类
本研究通过深度学习技术,使卷积神经网络适应蛋白二级结构预测问题,达到了70%的准确度,并尝试使用序列到序列学习和集合策略进一步提高精确度。
Nov, 2016
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白LM -嵌入(ProtT5)能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
Nov, 2022
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
May, 2023
我们提出了一种支持生物序列机器用于蛋白质分类的模型,该模型通过使用机器学习算法来帮助和引导生物实验,在生物技术应用中提供了重要的洞察。该研究展示了在蛋白质分类领域的最新工作,并为生物序列分类领域的新方向铺平了道路,对于定制的平台开发具有积极意义。
Aug, 2023
神经语言模型在自然语言处理任务中学习复杂实体表示成为强大工具,然而在计算生物学等领域中,其可解释性仍然是一个重要挑战。本研究旨在通过识别和表征知识神经元增强蛋白质语言模型(特别是ESM模型)的可解释性,通过将ESM模型针对酶序列分类任务进行微调,在比较两种保留原始模型中的子集神经元的知识神经元选择方法方面取得了一致优于随机基准线的结果。尤其是这些方法表明自注意力模块的关键向量预测网络中存在高密度的知识神经元,考虑到关键向量专门用于理解输入序列的不同特征,这些知识神经元可以捕捉不同的酶序列基序知识。未来,可以对每个神经元所捕捉到的知识类型进行表征。
Dec, 2023
通过整合前期训练模型和预训练的语言模型,本研究提出了ProteinLMDataset数据集和ProteinLMBench基准数据集,用于提升大型语言模型在蛋白质序列理解方面的能力,并通过实验证明其在蛋白质理解能力方面超越了GPT-4。
Jun, 2024
本研究解决了在蛋白质序列生成中可用数据有限的问题,通过重新训练包括Mistral-7B、Llama-2-7B、Llama-3-8B和gemma-7B在内的预训练大型语言模型,使其能够生成生物上合理的蛋白质结构。研究结果表明,即使在仅有42,000个独特人类蛋白质序列的数据集上,这些模型的表现与使用数百万蛋白质序列训练的专业模型相当,推动了计算生物学领域的透明度和合作。
Aug, 2024
本研究解决了蛋白质-配体相互作用(PLI)预测中的方法不足问题,特别是在药物发现与蛋白质工程中的重要性。文章提出了借助自然语言处理(NLP)机器学习方法的创新思路,探讨了其在近期文献中的应用以及相关机制。最重要的发现是,尽管NLP方法在PLI研究中具有潜力,但仍存在显著的局限性和未来需要克服的挑战。
Sep, 2024