May, 2024

自然离散组合突变易导致数据误差的机器学习中的数据规模缩放:以肽和小分子为案例研究

TL;DR通过研究在蛋白质或有机小分子等易突变的离散组合空间中训练的机器学习(ML)模型的数据误差缩放行为的趋势,我们发现了学习过程中出现的不连续的单调阶跃现象,其表现为特定训练数据阈值时测试误差的快速下降。我们发现了饱和和渐近衰减两种学习模式,并发现它们取决于训练集中含有的突变复杂性水平(即突变数量)。本研究对于在可突变离散空间中的机器学习,如化学性质或蛋白质表型预测,并改善基本统计学习理论的理解具有重要意义。