使用随机特征逼近进行高效数据集蒸馏
本文从理论角度探究基于核岭回归(KRR)的数据集精简方法,证明了在随机傅里叶特征空间中存在与原始数据解重合的一小组实例,利用这些实例可以生成 KRR 解,从而实现对完整输入数据的解近似优化。
May, 2023
用 KIP 算法从大规模数据集中提取出适合于训练机器学习模型的小规模数据集且在保持模型性能的同时可以大幅减小数据集容量的同时可以实现隐私保护,该算法在 MNIST 和 CIFAR-10 的分类中获得了最先进的结果。
Oct, 2020
在大规模回归问题中,通过通过定义核函数的谱密度,利用 Monte Carlo 抽样生成有限的样本集合以形成近似的低秩高斯过程(GP),随机 Fourier 特征(RFFs)显著提高了 GP 的计算可扩展性和灵活性。然而,RFFs 在核逼近和贝叶斯核学习中的有效性取决于能否轻松地采样核谱测度并生成高质量的样本。我们引入 Stein 随机特征(SRF),利用 Stein 变分梯度下降,可以用于生成已知谱密度的高质量 RFF 样本,以及灵活高效地近似传统上非分析的谱测度后验。SRFs 只需要评估对数概率梯度,即可同时进行核逼近和贝叶斯核学习,从而在传统方法上实现更好的性能。通过将其与基准模型在核逼近和众所周知的 GP 回归问题上进行比较,我们经验证明了 SRF 的有效性。
Jun, 2024
本文实现了一种基于神经 Feature Regression with Pooling (FRePo) 的 dataset distillation 方法,其在 CIFAR100、Tiny ImageNet 和 ImageNet-1K 上实现了 state-of-the-art 性能,且所需内存和训练时间都比以前的方法快;使用高质量的 distilled data 可大大提高各个 downstream 应用程序的性能,例如 continual learning 和 membership inference defense。
Jun, 2022
神经网络架构、随机初始化权重、神经网络高斯过程核、再生核希尔伯特空间、逼近误差是该研究论文的关键词,论文提出了一种在无限宽度限制下具有随机初始化权重的神经网络架构,它等价于一个具有高斯随机场协方差函数的神经网络高斯过程核,同时证明了该神经网络架构可以逼近由该核定义的再生核希尔伯特空间中的函数。实验结果验证了该理论发现的可行性。
Apr, 2024
随机特征逼近是加速大规模算法中核方法的最流行技术之一,并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质,包括梯度下降等具有隐式正则化的核方法或 Tikhonov 正则化等明确方法。对于我们的估计器,我们在适当的源条件下定义的规则性类别(甚至包括不在再生核希尔伯特空间中的类别)上获得了最佳学习速率。这改进或完善了先前在特定核算法相关设置中获得的结果。
Aug, 2023
在去中心化的核岭回归中,为了保证节点之间的一致性,通常会对特征系数施加约束,但是在许多应用中,不同节点上的数据在数量或分布上存在显著差异,因此需要能够生成不同随机特征的自适应和数据相关方法。针对这个关键难题,本文提出了一种新的去中心化核岭回归算法,该算法通过追求决策函数的一致性,实现了对节点上数据的灵活适应。经过严格的收敛性分析和数值验证,我们得出结论:在保持与其他方法相同的通信开销的同时,我们在六个真实世界数据集中平均提高了 25.5%的回归准确性。
May, 2024
介绍了一种名为 SQUEAK 的基于 RLS 抽样的核逼近算法,可以在线性时间内生成精确的核矩阵近似,并且只需处理数据集一次;同时还提出了一个并行和分布式版本,可在对数时间内线性扩展到多台机器上。
Mar, 2018
采用一种新的分布式基于核的元学习框架,使用无限宽的卷积神经网络,在数据集压缩中实现前沿的结果,通过对 MNIST,Fashion-MNIST,CIFAR-10,CIFAR-100 和 SVHN 等多个数据集的数据压缩进行初步分析,为数据如何与自然发生的数据不同提供了一些启示。
Jul, 2021
本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题,并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型,以及核岭回归。同时,论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况,以及核方法随机选取核函数时的情况。
Apr, 2019