基于一次学习的低数据药物研发
机器学习在药物发现中预测小分子性质方面具有很大潜力。本文提供了对近年来为此目的引入的各种机器学习方法的综合概述,并对结合亲合力、溶解度和 ADMET(吸收、分布、代谢、排泄和毒性)等多个性质预测和优化技术进行了讨论。我们还评估了模型预测方面的技术,特别是在药物发现中关键决策方面提供模型预测理解的技术。总的来说,这篇综述为药物发现中小分子性质预测的机器学习模型提供了深入了解。尽管有多种多样的方法,但它们的性能通常相当。神经网络虽然更加灵活,但并不总是优于更简单的模型。这表明高质量的训练数据对于训练准确的模型仍然至关重要,并且需要标准化的基准、额外的性能指标和最佳实践,以便更好地比较不同技术和模型之间的差异。
Aug, 2023
该论文介绍了一种基于深度学习技术的神经网络模型 DESMILES,其可以用于药物发现中的分子设计,实验结果表明 DESMILES 比现有模型更有效地改进了输入分子,降低了失败率,并可用于修改分子以促进其在不同受体中的结合亲和力。
Feb, 2020
利用深度学习技术构建的新型机器学习模型,对多种输入数据进行分类任务,包括有机和无机化合物,并在 Matbench 和 Moleculenet 基准数据集上进行开发和测试,揭示了化合物的底层模式。该模型在分子和材料数据集上表现出很高的预测能力,并在 Tox21 数据集上实现了 96% 的平均准确率,比之前最好结果提高了 10%。
Sep, 2023
通过使用小样本数据集进行基于机器学习方法的分子属性预测,研究发现使用消息传递神经网络(PaiNN)以及 SOAP 分子描述符与梯度提升回归树方法相结合的简单分子描述符能够获得最佳预测结果。进一步提出了一种使用大样本数据进行预训练,并在原始数据集进行微调的迁移学习策略,以获取更准确的模型。该策略在 Harvard Oxford Photovoltaics 数据集(HOPV,HOMO-LUMO 间隙)获得了出色结果,在 Freesolv 数据集(溶剂化能)上由于复杂的学习任务和用于预训练和微调标签的不同方法而不成功。研究还发现,预训练数据集的大小与最终训练结果并非单调改善的关系,更少的预训练数据点可能导致预训练模型的偏置更高,从而在微调后获得更高的准确性。
Apr, 2024
通过人类的单次或少次学习的能力,本文借鉴启发式的思想,提出了一种简单的技术,使深度循环网络能够利用其先前的知识从少量数据中学习新单词的有用表示,使自然语言处理系统更加灵活。
Oct, 2017
该研究提出了一种新的少样本药物发现方法,通过 Modern Hopfield Network 的参照分子对支持集和查询集中的分子进行表示丰富,从而成为药物发现中新的最优方法。
Apr, 2023
本文研究了基于计算机算法的 de novo 药物设计,利用循环神经网络训练生成分子结构,生成分子的性质与原用来训练模型分子的性质很相似。同时,提出使用小型分子集与模型来微调生成分子的活性,可以生成大量的新分子用在药物研发中。
Jan, 2017
本研究使用深度神经网络和度量学习的思想,建立了一种学习新概念的框架,从而不需要微调以适应新的类别类型,并在视觉和语言任务中定义了一次性学习问题,实验结果表明,在 Imagenet 数据集上,准确率从 87.6% 提高到 93.2%,在 Omniglot 数据集上,准确率从 88.0% 提高到 93.8%。
Jun, 2016
我们开发了一套深度学习方法和综合工具,针对分子属性预测和药物发现,跨越不同的计算模型、分子表示和损失函数。我们将分子表示为图和序列,并围绕这些表示所构建的深度模型进行学习。为了有效地从高度不平衡的数据集中学习,开发了优化精度 - 召回曲线下面积的先进损失函数。在在线和离线抗生素发现和分子属性预测任务中的结果表明,我们的方法相对于之前的方法实现了持续的改进,并在与 COVID-19 相关的 AI Cures Open Challenge 中以 ROC-AUC 和 PRC-AUC 方面均排名第一。
Dec, 2020
本文提出了一种新的基于多数据源知识图谱嵌入的机器学习方法,用于预测药物相互作用的风险,融合了 DrugBank、PharmGKB 和 KEGG drug 三个数据库中的 12,000 个药物属性信息进行训练,并采用 ComplEx 嵌入方法、Convolutional-LSTM 神经网络和机器学习模型来实现,通过三个最佳分类器的模型平均集成方法,在 5 折交叉验证测试中得到的平均精度、F1-score 和 MCC 值分别为 0.94、0.92、0.80。
Aug, 2019