May, 2024

智能和简化学习的新方法:Koopcon

TL;DR在大数据时代,数据集的体量和复杂性给机器学习,特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型,支持库普曼算子理论,有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发,采用一种新颖的编码和重构数据方法,保持了关键特征和标签分布。压缩过程利用自编码器神经网络结构、最优输运理论和瓦瑟斯坦距离,以最小化原始数据集和合成数据集之间的分布差异。我们提出了一个两阶段的实施策略:首先将大型数据集压缩成一个较小的合成子集;其次,通过训练一个分类器并将其性能与在等价原始数据子集上训练的分类器进行比较,来评估合成数据。我们的实验结果表明,使用压缩的数据训练的分类器表现与在原始数据集上训练的分类器相当,从而证明了我们压缩模型的有效性。这项工作不仅有助于减少计算资源的使用,还为受限环境下的高效数据处理铺平了道路,是数据高效机器学习的重要进展。