Sep, 2023

使用无监督学习方法解析 QM7b 和 QM9 量子力学数据集的结构

TL;DR两个量子力学数据集(QM7b 和 QM9)的内部结构被探索,研究了它们在电子性质方面的描述。通过内部维度分析、聚类和异常值检测方法,研究揭示了这两个数据集的内在维度远远小于描述维度。QM7b 数据由与原子组成相关的明确定义的聚类组成,而 QM9 数据由以异常值为主的外部区域和集中聚类的内核区域组成。分子中的原子数量与异常值 / 内部性质之间存在显著关系。尽管结构上存在差异,但逆向分子设计的目标变量的可预测性很高,这在从原始属性和较低维度嵌入空间中估计分子的原子数量的模型中得到了体现。