Oct, 2023

远离数据:自回归数据精炼

TL;DR我们研究了自回归机器学习任务的数据精简,其中输入和输出具有严格的从左到右的因果结构。具体而言,我们提出了 Farzi,它将事件序列数据集汇总为少量的合成序列 --Farzi 数据,这些数据经过优化,以保持(如果不是提高)与在完整数据集上训练的模型性能相比的状态。在内部,Farzi 通过 (i) 使用 Hessian-Vector Products 利用 Adam 优化器的高效逆模式微分;和 (ii) 将高维离散事件空间分解为潜在空间来进行内隐正则化。从实证上讲,对于顺序推荐和语言建模任务来说,我们能够在 Farzi 数据上训练最先进的模型,并在原始数据集的 0.1% 大小的 Farzi 数据上实现下游完整数据性能的 98-120%。值得注意的是,能够用更少的数据训练出更好的模型,为未来大型自回归模型的设计提供了新的思路,为进一步扩大模型和数据规模开辟了新的机遇。