利用潜空间知识分解和共享进行数据集压缩

Aug, 2022

利用潜空间知识分解和共享进行数据集压缩

Dataset Condensation with Latent Space Knowledge Factorization and Sharing

Hae Beom Lee, Dong Bok Lee, Sung Ju Hwang

TL;DR本文提出了一种新方法，通过利用给定数据集中的规律，以生成模型的方式定义数据集，通过学习可压缩代码的潜在空间和解码器，可以显著地增加合成例子的数量并实现信息因式分解，从而在压缩比与生成质量之间提供更好的平衡。

Abstract

In this paper, we introduce a novel approach for systematically solving dataset condensation problem in an efficient manner by exploiting the regularity in a given dataset. Instead of condensing the dataset directly in the original input space, we assume a →

dataset condensation generative process latent space decoders synthetic examples

发现论文，激发创造

通过有效的合成数据参数化压缩数据集

通过数据规则特征，提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架，并开发出有效的优化技术，提高了训练数据信息的压缩质量。

May, 2022

通过生成模型进行数据集简化

将大型数据集通过生成模型进行压缩，通过内类和间类损失优化样本集合关系，提高优化速度和适应大型数据集的能力。

Sep, 2023

潜空间中的数据集蒸馏

该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间，通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码，从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题，以显著降低时间和空间开销，提高性能。

Nov, 2023

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

智能和简化学习的新方法：Koopcon

在大数据时代，数据集的体量和复杂性给机器学习，特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型，支持库普曼算子理论，有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发，采用一种新颖的编码和重构数据方法，保持了关键特征和标签分布。压缩过程利用自编码器神经网络结构、最优输运理论和瓦瑟斯坦距离，以最小化原始数据集和合成数据集之间的分布差异。我们提出了一个两阶段的实施策略：首先将大型数据集压缩成一个较小的合成子集；其次，通过训练一个分类器并将其性能与在等价原始数据子集上训练的分类器进行比较，来评估合成数据。我们的实验结果表明，使用压缩的数据训练的分类器表现与在原始数据集上训练的分类器相当，从而证明了我们压缩模型的有效性。这项工作不仅有助于减少计算资源的使用，还为受限环境下的高效数据处理铺平了道路，是数据高效机器学习的重要进展。

May, 2024

GAN 中潜在语义的闭式因式分解

该研究使用生成式对抗网络（GANs）的内部编码，通过直接分解预训练权重，提出了一种闭式因式分解算法，从而发现了语义上更丰富的维度，用于图像编辑和无监督学习。

Jul, 2020

流形相关性确定

本文提出了一种全贝叶斯潜在变量模型，利用条件非线性独立结构学习高效的潜在表示；该模型能够捕捉极高维空间下的结构，可用于建模大规模未加工的图像，并通过从训练模型中的潜在空间中采样直接生成新图像；同时也演示了该模型在人体姿势预测中的应用，贝叶斯框架能够以一种合理的方式进行消岐，以包含数据动态特性的潜在空间先验。

Jun, 2012

从隐藏特征中学习：联合因子分析与潜在聚类

本文提出了一种联合因子分析和潜在聚类的框架，旨在学习矩阵和张量数据的聚类感知低维表示。该方法利用矩阵和张量分解模型来揭示潜在聚类结构，并通过潜在聚类结构作为先验信息来提高因子分解的性能。

May, 2016

使用梯度匹配的数据集压缩

本文提出了一种名为数据集精简的数据高效学习方法，该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络，并将此目标表述为深度神经网络权重梯度匹配问题，此技术在计算机视觉基准测试中表现出较高性能，并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。

Jun, 2020