Uni-QSAR: 分子属性预测的自动化机器学习工具
本文探究定量构效关系学习作为元学习的一个案例研究,研究了机器学习方法和算法选择对于药物开发的重要性,发现元学习方法比单个机器学习方法(例如随机森林)在药物开发中性能更好。
Sep, 2017
提出了针对最先进的机器学习模型,包括深度神经网络和梯度提升机的计算有效的 CP 算法,可在一些数据分布的弱前提下生成有效预测间隔,为 QSAR 建模提供了新的工具。
Apr, 2023
预测药物特性在药物发现中是关键,以便在昂贵的临床试验之前减少风险,并更快地找到高活性化合物。尽管机器学习社区对此表现出了兴趣并提出了各种标准数据集和方法,然而对于从业人员而言,目前仍不清楚哪种方法或途径最适用,因为不同的论文以不同的数据集和方法进行基准测试,导致得出的结论各不相同且难以比较。我们的大规模实证研究将不同数据集和方法的众多相关作品联系到一起,从而全面概述了现有的属性类别、数据集及其与不同方法的相互作用。我们强调不确定性量化以及应用这些方法在药物开发决策周期中的时间和成本的重要性。我们发现最佳方法取决于数据集,并且具备经典机器学习方法的工程特征通常优于深度学习。具体而言,经典方法(如高斯过程)通常最适合分析 QSAR 数据集,而树或深度学习方法(如图神经网络或语言模型)有时更适合描述 ADMET 数据集。我们的研究强调了从业人员尚无可靠的、直接可行的程序可供依赖,并为创建与从业人员相关的基准测试案例奠定了先例。深度学习方法必须在这些基准测试案例中得到验证才能成为药物特性预测的实际选择方法。
Jul, 2023
文章通过对 5 个基准数据集的系统评估,研究不同的不确定性量化方法在回归任务中的性能表现,发现没有一种方法完全优于其他方法,也没有一种特别可靠的错误排名。作者建议在已有的技术中进行选择。
May, 2020
基于已有的 QSAR 模型,QComp 利用实验数据中固有的相关性,提高了各种任务的预测准确性,同时通过量化特定终点的统计不确定性的减少,为合理决策提供支持,从而成为引导药物发现过程中最佳实验顺序的有前途工具。
May, 2024
通过原子级量子力学预训练数据,本研究探讨了如何改善深度学习在定量构效关系模型中的性能与广义性,以解决新颖化合物的现实情景下训练与测试数据的分布不一致问题,并显示了在公共数据集 TDC 上,原子级量子力学预训练可以改善性能,使特征激活更加符合高斯分布,从而得到更稳健的表示。据我们所知,这是首次分析隐藏状态分子表示以比较分子级与原子级预训练对量子力学数据的影响。
May, 2024
通过提取三维特征和使用对比学习的方法,我们的研究提出了一种名为 3D-Mol 的新型三维结构分子建模方法,用于准确表示空间结构,并在 7 个基准测试中展示了出色的性能。
Sep, 2023
我们提出了图形多相似学习(GraphMSL)框架,它在连续尺度上捕捉了分子的自相似性和相对相似性,从而显著提高了分子性质预测中的表示学习的效果。此框架通过不同化学模态推导出单峰多相似性度量,融合这些度量到多模态形式中,灵活的融合函数可以重塑模型的重点以传达不同的化学语义,并通过各种下游任务和事后分析显示出了显著的性能,在药物发现评估中具有重要潜力。
Jan, 2024
机器学习在药物发现中预测小分子性质方面具有很大潜力。本文提供了对近年来为此目的引入的各种机器学习方法的综合概述,并对结合亲合力、溶解度和 ADMET(吸收、分布、代谢、排泄和毒性)等多个性质预测和优化技术进行了讨论。我们还评估了模型预测方面的技术,特别是在药物发现中关键决策方面提供模型预测理解的技术。总的来说,这篇综述为药物发现中小分子性质预测的机器学习模型提供了深入了解。尽管有多种多样的方法,但它们的性能通常相当。神经网络虽然更加灵活,但并不总是优于更简单的模型。这表明高质量的训练数据对于训练准确的模型仍然至关重要,并且需要标准化的基准、额外的性能指标和最佳实践,以便更好地比较不同技术和模型之间的差异。
Aug, 2023