QMugs: 药物类分子的量子力学性质
QM7-X 是一个全面的数据集,其中包含大量的有机分子的 42 个理化特性,这些分子具有高达七个非氢(C,N,O,S,Cl)原子,并为量子力学 PBE0 + MBD 级别的计算提供了定量收敛的结果,这一数据集对探索化合物空间并针对性地设计具有特定属性的分子的机器学习模型的发展将起到至关重要的作用。
Jun, 2020
本研究提出了一个名为 $ abla^2$DFT 的新数据集和基准,其中包括更多的分子结构、构象、数据类型和任务,并且具备最新的模型。它是包含大量类似药物分子放松轨迹的第一个数据集,并在分子性质预测、哈密顿预测和构象优化任务方面提出了一种新的评估神经网络势函数的基准。此外,研究还提出了一个可扩展的神经网络势函数训练框架,并在其中实施了 10 个模型。
Jun, 2024
使用密度泛函理论和高级采样方法生成超过 450,000 种分子的 3D 构象,这将有助于从构象集合中预测分子性质并进行生成模型的开发。
Jun, 2020
发展了一种统一的机器学习方法,用于有机分子的电子结构,使用 CCSD (T) 计算作为训练数据,模型在计算成本和各种量子化学性质的预测准确度上优于常用的 B3LYP 泛函。将模型应用于芳香化合物和半导体聚合物上,对基态和激发态性质进行了验证,展示了其对于复杂系统的准确性和概括能力。
May, 2024
两个量子力学数据集(QM7b 和 QM9)的内部结构被探索,研究了它们在电子性质方面的描述。通过内部维度分析、聚类和异常值检测方法,研究揭示了这两个数据集的内在维度远远小于描述维度。QM7b 数据由与原子组成相关的明确定义的聚类组成,而 QM9 数据由以异常值为主的外部区域和集中聚类的内核区域组成。分子中的原子数量与异常值 / 内部性质之间存在显著关系。尽管结构上存在差异,但逆向分子设计的目标变量的可预测性很高,这在从原始属性和较低维度嵌入空间中估计分子的原子数量的模型中得到了体现。
Sep, 2023
本文介绍了 PubChemQC B3LYP/6-31G*//PM6 数据集,包含 85938443 种分子的电子性质等,并说明了 5 个子数据集及用途,可实现药物发现和材料科学等应用。
May, 2023
提供了一个综合的多保真度数据集 CheMFi,其中包括机器学习、量子化学、多保真度机器学习方法、基于 TD-DFT 的不同保真度数据集(STO-3G,3-21G,6-31G,def2-SVP 和 def2-TZVP)以及用于基准测试的多保真度基准模型。
Jun, 2024
QMO 是一种基于机器学习的分子优化框架,可以利用一个分子自编码器中的潜在嵌入,并通过基于一组分子属性预测和评估度量的有效查询来改善输入分子的期望属性。在类似性约束下,QMO 在优化小有机分子的药物样性和溶解度的基准任务方面优于现有方法,并且在两个新的和具有挑战性的任务中也展示了显著的性能提升,即:(i) 将现有的潜在 SARS-CoV-2 主蛋白酶抑制剂优化为更高的结合亲和力;(ii) 改善已知的抗菌肽的毒性。QMO 的结果与外部验证具有高一致性,为设计约束下的材料优化问题提供了有效的手段。
Nov, 2020
本文介绍了一种基于监督学习方法的量子哈密顿矩阵预测模型,该模型利用 QM9 数据集中的分子动力学轨迹和稳定分子几何结构生成了一个准确的 QH9 量子哈密顿矩阵数据集,并设计了各种不同分子的基准测试任务,该模型可对任意分子预测哈密顿矩阵,并在分子设计和材料设计领域具有广泛的应用前景。
Jun, 2023
介绍一种用于发展化学和材料科学机器学习模型的新的分子数据集 Alchemy,其包含 119487 种有机分子的 12 种量子力学性质,扩大了现有分子数据集的数量和多样性,使用图神经网络模型在 Alchemy 上进行的广泛基准测试清晰展示了新数据在验证和开发化学和材料科学机器学习模型方面的实用性。
Jun, 2019