蛋白质-曼巴:用于蛋白质功能预测的生物曼巴模型
本文提出了RITA:一套自回归的生成模型,用于蛋白质序列,具有高达12亿个参数,训练了超过2.8亿个属于UniRef-100数据库的蛋白质序列。我们首次系统性研究了自回归变压器在蛋白质领域中的能力随着模型大小的发展,我们评估了RITA模型在接下来的氨基酸预测,零样本适应性以及酶功能预测中的表现,并展示了规模扩大的好处。我们公开发布了RITA模型,以造福研究社区。
May, 2022
本篇论文综述了近年来利用深度学习方法在蛋白质功能预测任务领域取得的良好表现,并介绍了现代最先进的深度学习模型对计算机视觉、自然语言处理和多模态学习等领域的重大贡献。同时,文章提出自动化蛋白质功能预测任务的重要性,并希望能够鼓励更多的研究者进行相关领域的探索。
Oct, 2022
本文提出了多任务生物测定预训练框架 (MBP),该模型结合蛋白质 - 配体复合物的三维结构作为输入来预测蛋白质 - 配体结合亲和力,利用ChEMBL-Dock数据集对不同亲和力标签的预测进行多任务预训练,并且分类了相对排名是否来自同一生物测定,通过实验证明 MBP 作为通用框架能够改进并针对主流结构基预测任务。
Jun, 2023
自动蛋白质功能预测是一项大规模多标签分类问题,它旨在通过自动化蛋白质富集分析,消除对耗时的湿实验方法的依赖。通过仅使用蛋白质序列进行预测的方法逐渐提高可靠性和降低计算成本。因此,我们提出了一种基于序列的层次预测方法DeepGATGO,它以层次化的方式处理蛋白质序列和GO术语标签,并利用图形注意力网络(GATs)和对比学习进行蛋白质功能预测。实验证明,我们提出的模型在大规模数据集上的GO术语富集分析中具有更好的可扩展性。
Jul, 2023
机器学习在药物发现中预测小分子性质方面具有很大潜力。本文提供了对近年来为此目的引入的各种机器学习方法的综合概述,并对结合亲合力、溶解度和ADMET(吸收、分布、代谢、排泄和毒性)等多个性质预测和优化技术进行了讨论。我们还评估了模型预测方面的技术,特别是在药物发现中关键决策方面提供模型预测理解的技术。总的来说,这篇综述为药物发现中小分子性质预测的机器学习模型提供了深入了解。尽管有多种多样的方法,但它们的性能通常相当。神经网络虽然更加灵活,但并不总是优于更简单的模型。这表明高质量的训练数据对于训练准确的模型仍然至关重要,并且需要标准化的基准、额外的性能指标和最佳实践,以便更好地比较不同技术和模型之间的差异。
Aug, 2023
该研究引入了一个系统框架,用于比较大型语言模型在各种化学信息学任务中的微调效果。通过采用统一的训练方法,我们评估了三种知名模型(RoBERTa、BART和LLaMA)在使用SMILES作为通用分子表示格式预测分子性质时的能力。我们的比较分析涉及18种不同参数大小和数据集规模的这些模型的预训练,接着对它们在DeepChem的六个基准任务上进行微调。该研究不仅界定了每种模型类型的优势和局限性,还为选择最适合特定化学信息学应用的大型语言模型提供了可靠的方法论。
May, 2024
利用AlphaZero在蛋白质主链设计中的应用,展示了其出色的性能,不仅显著超越了现有方法,在蛋白质主链设计任务中提高了100%以上,而且通过引入次要目标,还揭示了更多有前景的结果,显示了模型驱动的强化学习在蛋白质设计的精确和微妙方面的潜力。
May, 2024
本研究解决了药物发现过程中,准确预测小分子药物的吸收、分布、代谢、排泄和毒性(ADMET)性状的数据需求高和资源消耗大的问题。提出的SMILES-Mamba模型通过自监督预训练与微调策略,展示了在22个ADMET数据集上优异的性能,尤其在14个任务中取得最高分,表明自监督学习在提升分子性质预测中的潜力。
Aug, 2024
本研究解决了蛋白质基础模型评估框架缺失的问题,提出了ProteinBench这一全面的评估工具。通过对任务的分类、多指标评估以及各类用户目标的深入分析,揭示了现有模型的能力和局限性。结果显示,这一框架可促进蛋白质模型的透明性和进一步研究,为该领域的发展提供了重要支持。
Sep, 2024