已探索的化学空间有多大?衡量数据库和机器生成分子覆盖的化学空间
本文提出并验证八种数据分布度量方法,相对于现有方法,其中大部分具有改进效果,建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。
Dec, 2022
本研究介绍了一种使用机器学习技术探索复杂材料配置空间必不可少的结构相似度度量方法 ——SOAP,以及如何使用 REMatch 方法将这些局部描述符相结合,并在小有机分子数据库中达到一个平均绝对误差小于 1 kcal/mol 的预测效果的重要里程碑。
Dec, 2015
本文探讨了一种新型的计算方法,即使用基于无向有标号图和图重写的部分规则应用的方法构建化合物大型网络,以探索化学空间的可能组合。该方法在指定反应机理的情况下,能够极大地降低资源需求,同时也避免了对非常不可能的化合物进行枚举,从而可以提高效率。此框架不仅适用于化学领域,也可以扩展到其他领域,例如基于其变换模型而构建复杂游戏。
Feb, 2013
通过构建样本空间的表示,使用半监督主动学习方法来精细调整生成模型,使其针对目标函数进行优化,以在化学空间代理内实施,从而最大限度地增强生成的分子与蛋白质靶点之间的吸引相互作用。
Sep, 2023
该研究提出了一种基于对接的基准模型,用于评估设计药物分子的生成模型性能的局限性,并提出了一种基于简化评分函数的基准模型,以期望实现自动生成有前途的候选药物的目标。
Jun, 2020
本研究回顾了一些最近发表的表示原子邻域环境的方法,并分析了它们在忠实度和适用于拟合势能面方面的相对优点。我们展示了使用具有增加的角波数的有限基函数集来扩展原子邻域密度函数的通用方法的具体案例。我们还提出了一种全新的方法,称为光滑重叠原子位置(SOAP),直接定义了任意两个邻域环境之间的相似性。通过拟合小硅集群和大块晶体的势能面的模型,我们测试了各种表示的性能。
Sep, 2012
提出了一种基于化合物相似性的新评估指标,称为 “Fréchet ChemNet distance (FCD)”,用于评估深度学习驱动的 de novo 药物设计的生成模型,该指标考虑了分子化学和生物学相关信息,并通过分布分析生成的分子集的多样性来度量其生成分子集的生物活性和化学特性的相似性和多样性。
Mar, 2018
我们基于主动学习算法,提出了一种全自动方法,用于生成分子能量的数据集,能够支持深度学习算法 ANI 在含有 CHNO 的有机分子的所有情况下实现精确的能量和力预测。
Jan, 2018
融入大型语言模型的进化算法为分子发现问题的优化提供了一个优越性能的解决方案,通过重新设计进化算法的交叉和变异操作,利用大型化学信息语言模型进行大规模的实证研究,在单目标和多目标环境中,对于性能优化、分子重发现和基于结构的药物设计等多个任务表现出优于基线模型的优越性能,提高了最终解的质量和收敛速度,同时减少了所需的目标评估次数。
Jun, 2024
度量空间的规模最近被确定为一种新型不变量,它可以在多个尺度上衡量空间的 ' 有效大小 '。通过捕捉数据的几何和拓扑特性,度量空间可以解决无监督表示学习任务中的挑战。我们形式化了有限度量空间的度量函数之间的新概念差异度,并用它们导出了一种用于降维任务的质量度量。我们的度量可以在数据扰动下保持稳定,计算效率高,并且可以对嵌入进行严格的多尺度比较。我们通过一个实验套件展示了我们度量的实用性,其中包括数据可视化的比较。
Nov, 2023