梦境蒸馏：一种数据独立的模型压缩框架

ICMLMay, 2019

梦境蒸馏：一种数据独立的模型压缩框架

Dream Distillation: A Data-Independent Model Compression Framework

Kartikeya Bhardwaj, Naveen Suda, Radu Marculescu

TL;DR本文提出了一种基于 Dream Distillation 的数据无关的模型压缩框架，能够在没有数据训练的情况下，在 CIFAR-10 测试集上达到 88.5% 的精度。

Abstract

model compression is eminently suited for deploying deep learning on IoT-devices. However, existing model compression techniques rely on access to the original or some alternate dataset. In this paper, we address

model compression iot devices dream distillation data-independent cifar-10

发现论文，激发创造

深度神经网络的无数据知识蒸馏

提出了一种无需训练集的知识蒸馏方法，仅利用预训练模型释放的一些额外元数据，就能将大规模数据集上训练的深度神经网络压缩到其大小的一小部分，并探索了可用于该方法的不同类型的元数据以及使用它们所涉及的权衡。

Oct, 2017

记忆数据集：为神经网络提炼可寻址的记忆

提出一种基于数据集精简的算法，通过共享数据集的压缩表示生成训练样本以迅速重新训练神经网络，进而实现数据集的总体压缩和连续学习。

Jun, 2022

自监督数据集压缩：压缩就是你所需的

基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩，并利用大型预训练模型的潜力，提出了 SC-DD 框架，相对传统的监督学习方案，它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力，并在 CIFAR-100、Tiny-ImageNet 和 ImageNet-1K 数据集上表现出了显著的优越性。

Apr, 2024

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

通过合成数据防止知识蒸馏中的灾难性遗忘和分布不匹配

本论文提出了一种基于知识蒸馏的数据无需模型压缩框架，通过维护一个动态的生成样本集合并添加实际数据分布的限制，解决了现有数据无需压缩方法中可能存在的灾难性遗忘问题和人工数据分布不匹配问题。在 SVHN、Fashion MNIST 和 CIFAR100 数据集上与最先进的方法相比，表明可以提高通过知识蒸馏获得的学生模型的精度。

Aug, 2021

知识内含：无数据模型压缩方法

本论文提出三种从训练模型中生成合成样本的方法，用于压缩和微调量化模型，不需要真实数据支持，可以用于数据敏感情况，最佳方法与原始训练样本相比具有可忽略的准确度下降，此方法利用训练模型的内在批归一化层统计信息，可用于评估数据之间的相似性，为真正的数据无损模型压缩打开了道路，并在模型部署过程中减轻了对训练数据的需求。

Dec, 2019

大规模生成无数据蒸馏

提出了一种新的方法，通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型，从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习，该方法在 CIFAR-10 和 CIFAR-100 数据集上表现出色，并能够将其扩展到 ImageNet 数据集。

Dec, 2020

基于软标签数据蒸馏的胃部图像压缩生成，用于医疗数据共享

提出了一种新颖的软标签数据集蒸馏方法，用于医疗数据共享，并且可以提取 DCNN 模型的重要权重，以减少训练模型所需的内存，从而将数万张图像压缩为几张柔性标记图像。结果表明，该方法可以提高医疗数据共享的效率和安全性。

Sep, 2022