迭代反向体积抽样用于线性回归
通过协方差矩阵和预测误差,我们提出了一种选择向量子集的新方法,该方法可以使得使用该子集的岭估计在整个数据集上的平均预测误差具有强大的统计保证,而无需昂贵的标签表。同时,我们对一种联合子抽样过程进行扩展,称之为卷积抽样,并加速迭代过程,以实现与主要独立同分布子抽样过程之一的杠杆分数基本相同的效率。最后,我们理论上和实验上证明了,当标签昂贵时,卷积抽样比任何独立同分布抽样具有明显的优势。
Oct, 2017
通过体积采样的子矩阵来估计一个满秩矩阵的伪逆,得到一个无偏的估计值以及其协方差。伪逆在解决线性最小二乘问题中起着重要的作用,通过我们的方法,基于采样列的权重向量能够无偏地估计出基于所有列标签的整体问题的最优解,并且建立了线性最小二乘和体积采样之间的基础联系。
May, 2017
本文介绍了使用比例体积抽样算法来获得 $A$- 最优设计的改进近似算法,特别是在测量次数 $k$ 显着大于维度 $d$ 的渐进区域内,我们的结果几乎是最优的。同时,我们还证明了当 k=d 时,$A$- 最优设计问题的近似难度是 NP-hard 的。本文的主要应用场景包括无线网络中的传感器放置,稀疏最小二乘回归,$k$-means 聚类的特征选择和矩阵近似等方面。
Feb, 2018
通过使用随机点值函数的加权最小二乘逼近方法,该研究论文提供了一种依赖于投影行列式点过程(DPP)或体积采样的加权最小二乘泛化版本,证明了在期望意义下使用 O (mlog (m)) 个样本时预期的 L^2 误差受到常数倍的 L^2 最佳逼近误差的限制,并证明了在函数属于连续嵌入 L^2 的某个范数向量空间 H 的情况下,逼近几乎一定受到 H 范数下最佳逼近误差的限制,最后通过数值实验展示了不同策略的性能。
Dec, 2023
该研究提出了一种简单有效的方法,将概率分布嵌入再应用岭回归 算法来解决分布回归问题,同时证明该方法的稳定性和收敛速度,回答了 15 年来未解决的开放性问题,并涵盖了一系列相关的概率分布问题。
Feb, 2014
通过发展精确(随机)多项式时间抽样算法,使用实稳定多项式理论研究双重体积抽样的概率分布,证明了它满足 “强瑞利” 属性,并实现了快速混合马尔可夫链采样器,该采样器与常见的实验设计方法相关,是更多实践者的首选。
Mar, 2017
从理论和数值两个角度研究了使用加权最小二乘近似方法在一般的逼近空间上进行函数重建的问题,证明了在一些条件下可以获得稳定性和最优的精度,并提出了一种采样方法以生成独立于张量积型的最优度量的样本,其中逼近空间可以是高维的多项式类型空间,其应用于参数和随机偏微分方程。
Aug, 2016
本文研究了分布回归问题,提出了一种基于再生核希尔伯特空间的简单分析计算的岭回归方法,证明了该方法在两阶段抽样设置下是一致的,并且该估算器能够达到一阶段最小化最优速率。
Nov, 2014
研究了一种抽样方法,旨在最小化填充距离,通过选择最小填充距离的训练集,实验证明该方法显著降低了各种回归模型的最大预测误差,远远优于现有的抽样方法。
Jul, 2023