MD-HIT：用于材料性能预测的机器学习及数据集冗余控制

Jul, 2023

MD-HIT：用于材料性能预测的机器学习及数据集冗余控制

MD-HIT: Machine learning for materials property prediction with dataset redundancy control

Qin Li, Nihang Fu, Sadman Sadeed Omee, Jianjun Hu

TL;DR本文调查了文献中关于基于组成和基于结构的材料属性预测的过高 ML 性能，提出了一种材料数据集冗余降低算法 MD-HIT，并通过几个组成和结构基础的距离阈值评估其性能，结果表明，通过这种方法，预测性能更能反映其真实的预测能力。

Abstract

materials datasets are usually featured by the existence of many redundant (highly similar) materials due to the tinkering material design practice over the history of materials research. For example, the materials project database has many perovskite cubic structure materials similar

materials datasets redundancy machine learning reduction algorithm prediction capability

发现论文，激发创造

一种全面而多功能的多模态深度学习方法，用于预测先进材料的多种性质

通过融合物理属性和化学数据，我们提出了一个多模态深度学习框架，用于预测一种 10 维丙烯酸聚合物复合材料的物理特性。该框架可以处理 18 维的复杂性，成功预测了 114,210 种成分条件下的 913,680 个物性数据点。我们提出了一个分析高维信息空间以进行反向材料设计的框架，并展示了足够的数据可实现的材料类型和规模的灵活性和适应性。这项研究推动了未来对不同材料和更复杂模型的研究，并将我们更接近预测所有材料的所有属性的终极目标。

Mar, 2023

高效材料科学模拟的代理模型：基于机器学习预测微观组织性质

通过研究两个不同数据集中的六种机器学习技术在材料科学领域的应用，本文分析了这些模型的准确性和稳健性，并阐明了它们性能差异的原因。研究还考察了包含领域知识的影响以及基于训练数据可用性和质量的一般建议。

Sep, 2023

M$^2$Hub：解锁机器学习在材料发现中的潜力

M2Hub 是一个用于推动材料发现中机器学习进步的工具包，其尤为关注材料发现中的虚拟筛选、反设计和分子模拟三个关键领域，以及提供了适用于材料结构的最先进的机器学习方法和数据集来进行基准测试。

Jun, 2023

基于机器学习的材料缺陷检测的全面调查：挑战、解决方案和未来展望

材料缺陷 (MD) 是影响产品性能并引起相关产品安全问题的主要挑战，通过机器学习 (ML) 技术在材料缺陷检测 (MDD) 中，围绕非监督学习、监督学习、半监督学习、强化学习和生成学习五个类别系统地调查了主要原理和技术，并聚焦于复合材料的缺陷检测技术，最后探讨了 ML 技术在 MDD 中的潜在未来发展方向。

Jun, 2024

一般性用途的无机材料属性预测机器学习框架

该研究论文介绍了一种新的机器学习框架，用于从现有的材料数据中提取预测模型，方法是使用具有化学多样性的属性列表，并将数据集分成相似材料组，提高预测准确度，可用于预测晶态和非晶材料的多种属性。

Jun, 2016

Lo-Hi: 实用的机器学习药物发现基准

用机器学习模型预测分子性质是药物发现的一种希望，研究表明现有基准模型与实际应用存在较大差异，因此创建了一个新的实际型基准模型 “Lo-Hi benchmark”，以实现药物发现过程中的主要任务之一 —— 化合物分析。

Oct, 2023

机器学习在金属增材制造中用于机械性能预测

本文介绍了一种基于机器学习的综合框架，用于金属增材制造过程中机械性能的预测，并提出了利用 SHAP 分析对机器学习模型预测结果进行解释和解读的方法，同时比较了数据驱动的显式模型相对于机器学习模型更具可解释性。

Aug, 2022

基于结构的材料属性预测方法对比研究

现实世界材料研究中，机器学习模型通常被期望能够预测和发现与已知材料不同的新颖材料。本研究在物性预测模型性能评估中提供了客观评价，在超出训练集分布的材料中预测模型的性能。通过在三个基准数据集上对基于结构的图神经网络的广泛实验，我们发现当前最先进的图神经网络算法在超出分布的物性预测任务上与基线模型相比表现明显不足，展示了在现实材料预测任务中关键的泛化差距。我们进一步研究了这些图神经网络模型的潜在物理空间，并鉴定出 CGCNN、ALIGNN 和 DeeperGATGNN 相对于 MatBench 研究中目前最佳模型（coGN 和 coNGN）在超出分布的任务上更为稳健的性能，并提供了改进性能的见解。

Jan, 2024

材料专家 —— 材料发现的人工智能

通过机器学习将操作性直觉转化为可量化描述符，以及通过结构信息指示的容限因子，研究和发现拓扑半金属等材料。

Dec, 2023

MatSciML：固体材料建模的广泛多任务基准

提出了 MatSci ML，这是一个用于建模具有周期晶体结构的固态材料的机器学习（MatSci ML）方法的新型基准。使用机器学习方法研究固态材料是一个新兴领域，由于使用不同种类的数据集来开发机器学习模型，导致了碎片化的情况，使得比较不同方法的性能和泛化能力变得困难，从而阻碍了该领域的研究进展。MatSci ML 基准建立在开源数据集的基础上，包括 OpenCatalyst、OQMD、NOMAD、Carolina 材料数据库和 Materials Project 等大规模数据集，为模型训练和评估提供了多样化的材料系统和属性数据，包括模拟能量、原子力、材料能隙，以及通过空间群对结晶对称性进行分类的数据。MatSci ML 中的属性多样性使得实施和评估固态材料的多任务学习算法成为可能，而数据集的多样性则促进了跨多个数据集开发新的更广义的算法和方法。在多数据集学习环境中，MatSci ML 使研究人员能够结合来自多个数据集的观测结果，进行共同预测共同属性，如能量和力。使用 MatSci ML，我们评估了不同的图神经网络和等变点云网络在涵盖单一任务、多任务和多数据学习场景的几个基准任务上的性能。我们的开源代码可在指定的 https URL 上找到。

Sep, 2023