大规模预训练提高了基于主动学习的分子虚拟筛选的样本效率

Sep, 2023

大规模预训练提高了基于主动学习的分子虚拟筛选的样本效率

Large-scale Pretraining Improves Sample Efficiency of Active Learning based Molecule Virtual Screening

Zhonglin Cao, Simone Sciabola, Ye Wang

TL;DR预训练的基于转换器的语言模型和图神经网络在贝叶斯优化主动学习框架中表现良好，仅通过筛选超大型库中的 0.6％，可以识别到排名前 50000 位化合物的 58.97％，与先前的最先进基准相比提高了 8％，在结构基础和配体基础药物发现中具有卓越的性能，可提高基于主动学习的分子虚拟筛选的准确性和样本效率。

Abstract

virtual screening of large compound libraries to identify potential hit candidates is one of the earliest steps in drug discovery. As the size of commercially available compound collections grows exponentially to the scale of billions, brute-force →

virtual screening hit candidates machine learning model transformer-based language model bayesian optimization

发现论文，激发创造

通过基于分子池的主动学习加速高通量虚拟筛选

本研究探讨使用基于贝叶斯优化技术的代理模型在虚拟筛选过程中的应用，针对蛋白质 - 配体配对数据集进行实验，结果表明通过此模型可显著减少计算成本，并可用于高通量筛选等领域。

Dec, 2020

了解分子对接的主动学习及其应用

通过基于计算方法和资源的不断进步，超大规模虚拟筛选成为一种重要的策略，而主动学习方法在迭代小规模对接和机器学习模型训练中有效地减少了计算成本。本文通过六个受体靶点的基准研究，探究了在仅考虑二维结构的情况下，主动学习方法如何有效地预测对接分数及其适用条件。研究发现，代理模型往往通过记忆从获得步骤中获取的高对接得分化合物中普遍存在的结构模式，虽然如此，代理模型在虚拟筛选中仍然具有使用价值，比如在 DUD-E 数据集中鉴定活性化合物以及 EnamineReal 库中高对接得分化合物的初步筛选。我们的综合分析强调了主动学习方法在虚拟筛选中的可靠性和潜在应用性。

Jun, 2024

跨不同化学领域的迁移学习：利用在小分子和化学反应数据上预训练的深度学习模型进行有机材料的虚拟筛选

使用机器学习预测有机材料属性是一种高效的虚拟筛选方法，本研究证明药物类小分子和化学反应数据库可用于预训练 BERT 模型以进行有机材料的虚拟筛选，并展示了其在机器学习模型训练中的优越性能，进一步加强了跨不同化学领域的迁移学习在有机材料的虚拟筛选中的可行性。

Nov, 2023

基于贝叶斯学习的可靠分子监督学习的基准研究

本研究旨在探讨基于贝叶斯学习的图神经网络在分子筛选中的预测性能和可靠性，结果表明贝叶斯学习能够为不同的神经网络结构和分类任务提供良好的校准预测，并在虚拟筛选中发挥重要作用，从而产生更高的发现成功率。

Jun, 2020

分子性质的机器学习：局部性和主动学习

本篇论文提出了一种基于局部相互作用模型和主动学习算法的新型机器学习算法，可以在较小的训练集上提供高精度预测，并显著减少异常值误差，从而为材料设计和药物发现等领域提供更有效的高通量筛选方法。

Sep, 2017

学习物理学为基于结构的虚拟筛选提供姿态敏感性

该研究针对药物发现中存在的问题，通过新的模型和基准测试，实现了在结构虚拟筛选中成功识别生物活性配体的目标，并克服了深度学习方法不敏感于蛋白质 - 配体相互作用的限制。

Oct, 2021

利用语言模型和领域相关辅助任务进行分子表示学习

本文采用 Transformer 结构，具体为 BERT，来学习灵活高质量的分子表示，从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性，最终提高了我们模型 MolBert 在基准数据集上的性能，显示其在药物发现方面具有良好的应用前景。

Nov, 2020

ChemBERTa-2：面向化学基础模型的发展

本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2，并经过预训练过程的优化，发现在分子预测任务上优于现有的最先进架构。

Sep, 2022

不良学生成就卓越教师：主动学习加速大规模视觉理解

我们提出了一种加速大规模预训练的方法，通过在线数据选择策略。我们首次证明了基于模型的数据选择可以减少达到采用均匀采样训练的模型性能所需的总计算量。这种 “计算正向” 模式的关键洞察是，小型模型可以很好地代表大型模型的损失，因此可以大大降低用于评分数据的计算量，同时为学习者提供了效率提升。这些数据选择策略在数据集和任务上也具有很强的普适性，为重新使用现成的模型和训练序列来分摊数据评分开销开辟了途径。我们的方法 ClassAct 和 ActiveCLIP 在 JFT 上训练视觉分类器和 ALIGN 上训练多模态模型时，分别需要少 46％和 51％的训练更新和少 25％的总计算量。最后，我们的范式无缝适用于大规模图像 - 文本数据集的策划，在多个多模态迁移任务和预训练制度上实现了新的最优效果。

Dec, 2023

PharmacoNet：药理网络：通过药效团建模加速基于结构的虚拟筛选

PharmacoNet 是一种深度学习框架，通过与生成的药效团配位体之间的粗粒化图形匹配，解决了现有方法中昂贵的配位体姿态采样和评分过程，从而显著提高了结构基准方法的速度，同时通过简单的评分函数保持了合理的准确性，并在严格的预筛选阈值下有效保留了命中候选物，揭示了药效团建模方法在基于深度学习的药物发现中迄今未被开发的潜力。

Oct, 2023