远离数据：自回归数据精炼

Oct, 2023

Farzi Data: Autoregressive Data Distillation

Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng...

TL;DR我们研究了自回归机器学习任务的数据精简，其中输入和输出具有严格的从左到右的因果结构。具体而言，我们提出了 Farzi，它将事件序列数据集汇总为少量的合成序列 --Farzi 数据，这些数据经过优化，以保持（如果不是提高）与在完整数据集上训练的模型性能相比的状态。在内部，Farzi 通过 (i) 使用 Hessian-Vector Products 利用 Adam 优化器的高效逆模式微分；和 (ii) 将高维离散事件空间分解为潜在空间来进行内隐正则化。从实证上讲，对于顺序推荐和语言建模任务来说，我们能够在 Farzi 数据上训练最先进的模型，并在原始数据集的 0.1% 大小的 Farzi 数据上实现下游完整数据性能的 98-120%。值得注意的是，能够用更少的数据训练出更好的模型，为未来大型自回归模型的设计提供了新的思路，为进一步扩大模型和数据规模开辟了新的机遇。

Abstract

We study data distillation for auto-regressive machine learning tasks, where the input and output have a strict left-to-right causal structure. More specifically, we propose →

data distillation auto-regressive machine learning event sequence dataset farzi memory-efficient data distillation

发现论文，激发创造

增强蒸馏技术的表格数据快速准确简单模型

FAST-DAD 是一种能够将复杂的模型集合精简为促进部署的个体模型的方法，它基于数据增强策略，并使用基于自注意力的伪似然估计器的吉布斯采样。在 30 个跨越回归和二元 / 多类分类任务的数据集上，FAST-DAD 精炼方法得到的个体模型比在原始数据上进行标准培训获得的模型更快而且更准确，可以超过 AutoML 工具如 H2O / AutoSklearn 生成的集成预测器 10 倍以上。

Jun, 2020

最小化累积轨迹误差以提高数据集蒸馏

本文提出了一种基于优化算法的 Flat Trajectory Distillation（FTD）方法来缓解 distortion 和 subsequent evaluation 之间的累积轨迹误差，实验证明该方法可提高梯度匹配方法的性能，并适用于神经架构搜索。

Nov, 2022

简单数据集压缩

通过 RaT-BPTT 方法解决数据集精炼的核心问题，从而建立起一种新的数据集精炼技术，用于生成包含近乎最佳性能子集的精炼数据集。

Nov, 2023

神经特征回归的数据集蒸馏

本文实现了一种基于神经 Feature Regression with Pooling (FRePo) 的 dataset distillation 方法，其在 CIFAR100、Tiny ImageNet 和 ImageNet-1K 上实现了 state-of-the-art 性能，且所需内存和训练时间都比以前的方法快；使用高质量的 distilled data 可大大提高各个 downstream 应用程序的性能，例如 continual learning 和 membership inference defense。

Jun, 2022

使用 Transformer 进行事实链的自回归推理

本文提出了一种迭代推理算法来实现多跳解释再生，该算法根据自然语言问题和其答案检索相关的事实证据。该算法通过自回归地从语料库中选取事实，以学习排序损失的方式来缓解多源证据的选择问题。使用预训练的 Transformer 模型进行实验，结果显示该算法在精度、培训时间和推理效率方面均优于先前的最先进技术。

Dec, 2020

通过匹配训练轨迹进行数据集蒸馏

本研究提供了一种新的算法，使用合成数据集优化网络，可以快速、高效地将神经网络训练到与真实数据相似的状态，从而实现数据集精简化处理，并能够处理高分辨率视觉数据。

Mar, 2022

使用随机特征逼近进行高效数据集蒸馏

提出了一种名为 RFAD 的基于随机特征近似的数据集蒸馏算法，该算法能够在维持较高准确性的同时，大幅加速了现有的数据集压缩算法，能够应用于大规模数据集上，并适用于如模型解释和隐私保护等任务。

Oct, 2022

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

动量对抗蒸馏：数据无关蒸馏中处理大分布偏移

本文提出一种名为 Momentum Adversarial Distillation (MAD) 的方法，使用演员生成器和 EMA（Exponential Moving Average）生成器的合成样本对学生进行培训，通过保持 EMA 生成器的过去版本来防止快速改变的学生，以解决 DFKD 中的分布偏移问题。实验证明，MAD 在许多基准数据集上胜过竞争方法，甚至在某些情况下实现了最新的成果。

Sep, 2022