智能和简化学习的新方法：Koopcon

May, 2024

Koopcon: A new approach towards smarter and less complex learning

Vahid Jebraeeli, Bo Jiang, Derya Cansever, Hamid Krim

TL;DR在大数据时代，数据集的体量和复杂性给机器学习，特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型，支持库普曼算子理论，有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发，采用一种新颖的编码和重构数据方法，保持了关键特征和标签分布。压缩过程利用自编码器神经网络结构、最优输运理论和瓦瑟斯坦距离，以最小化原始数据集和合成数据集之间的分布差异。我们提出了一个两阶段的实施策略：首先将大型数据集压缩成一个较小的合成子集；其次，通过训练一个分类器并将其性能与在等价原始数据子集上训练的分类器进行比较，来评估合成数据。我们的实验结果表明，使用压缩的数据训练的分类器表现与在原始数据集上训练的分类器相当，从而证明了我们压缩模型的有效性。这项工作不仅有助于减少计算资源的使用，还为受限环境下的高效数据处理铺平了道路，是数据高效机器学习的重要进展。

Abstract

In the era of big data, the sheer volume and complexity of datasets pose significant challenges in machine learning, particularly in image processing tasks. This paper introduces an innovative Autoencoder-based Dataset Condensation Model backed by →

big data autoencoder-based dataset condensation model koopman operator theory optimal transport theory data-efficient machine learning

发现论文，激发创造

通过生成模型进行数据集简化

将大型数据集通过生成模型进行压缩，通过内类和间类损失优化样本集合关系，提高优化速度和适应大型数据集的能力。

Sep, 2023

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

通过有效的合成数据参数化压缩数据集

通过数据规则特征，提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架，并开发出有效的优化技术，提高了训练数据信息的压缩质量。

May, 2022

使用一致的 Koopman 自编码器预测连续数据

提出了一种新颖的一致性 Koopman 自编码器模型，结合前向和后向动态，通过探索一致性动态与其关联的 Koopman 算子之间的相互作用来处理非线性动态系统，取得了在预测中的准确估计，同时对噪声具有鲁棒性。

Mar, 2020

利用潜空间知识分解和共享进行数据集压缩

本文提出了一种新方法，通过利用给定数据集中的规律，以生成模型的方式定义数据集，通过学习可压缩代码的潜在空间和解码器，可以显著地增加合成例子的数量并实现信息因式分解，从而在压缩比与生成质量之间提供更好的平衡。

Aug, 2022

走向概念压缩

通过引入一种简单的循环变分自编码器结构，我们在图像建模方面取得了显著进展，实现了割裂了关于全局概念信息和底层细节的分离，达到了无监督学习的基石之一。同时，我们通过仅存储关于图像的全局信息，实现了高质量的 ' 概念压缩 '。

Apr, 2016

一次压缩，仅需两个规则：精简数据集的修剪法则

对于避免额外压缩过程具有计算禁止的情况，本文引入了 You Only Condense Once (YOCO) 与其它数据集压缩方法相比，在 CIFAR-10 数据集上取得了明显的准确度提升。

Oct, 2023

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

DC-BENCH：数据集压缩基准测试

本研究提供了首个大规模的 Dataset Condensation 标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Jul, 2022

时态一致的 Koopman 自动编码器用于预测动力系统

通过引入时间一致的 Koopman 自编码器（tcKAE），本文解决了模型训练数据有限和含噪声时 KAE 方法效果不佳的问题，并在简单摆动、动力学等多个测试案例中实证了 tcKAE 模型相较于现有模型的优越性能。

Mar, 2024