分层抽样中的自适应最优分配
本论文提出了一种随机优化方法,该方法通过自适应地控制梯度近似计算中使用的样本量来减少方差,使用内积测试来决定增加样本量,并通过逻辑回归问题的数值实验验证了该算法的有效性。
Oct, 2017
本文主要研究的问题是:如何在样本预算有限的情况下,统一地估计多个分布的平均值。通过采集数量,可以根据它们的方差为已知来设计最优的采样策略,但在更实际的情况下,需要设计自适应采样策略来选择要采样的分布(根据先前观察到的样本)。文章描述了两种策略,根据样本数据以高概率上限置信界为比例,拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。
Jul, 2015
我们研究了一种分层抽样方法,用于减少 LIME Image 中典型 Monte Carlo 抽样生成的人工现象。通过在解释图像周围的合成邻域中对依赖变量进行欠采样,从而导致采样数据无法用线性回归器拟合,因此无法得到充分的解释。我们还强调了与 Shapley 理论的关系,该理论过去也提出了关于欠采样和样本相关性的相似观点。我们推导了所有所需的公式和调整因子,以得到无偏的分层抽样估计器。实验证明了所提方法的有效性。
Mar, 2024
使用随机化技术推导出半定规划的随机梯度算法,通过采用子采样来降低每次迭代的计算成本,从而控制迭代的代价和总迭代次数的平衡,算法的复杂度与解决方案的复杂度成正比,该算法在统计学习的某些大规模问题上表现良好。
Mar, 2008
本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。
Jan, 2022
本文介绍了使用比例体积抽样算法来获得 $A$- 最优设计的改进近似算法,特别是在测量次数 $k$ 显着大于维度 $d$ 的渐进区域内,我们的结果几乎是最优的。同时,我们还证明了当 k=d 时,$A$- 最优设计问题的近似难度是 NP-hard 的。本文的主要应用场景包括无线网络中的传感器放置,稀疏最小二乘回归,$k$-means 聚类的特征选择和矩阵近似等方面。
Feb, 2018
本文提出了一种基于 Heuristic 和 Bandit 反馈的在线优化算法,可以寻找一种重要性采样分布序列,竞争力可以与后见之明得到的最佳固定分布相媲美,并在实验验证中证明了该算法在多个数据集和设置下有效的优点。
Feb, 2018
研究了在有限的价格预算下,基于在线分层抽样和 Monte Carlo 积分的函数评估问题。证明了算法 MC-UCB 在样本数量 n 和分层数量 K 方面都是最小化的,从而推导了最小最优边界。
May, 2012
模型性能评估是机器学习和计算机视觉中的关键而昂贵的任务。在本文中,我们提出了一种模型评估的统计框架,包括分层、抽样和估计组成部分。我们的实验表明,通过基于准确的模型性能预测进行 k-means 聚类的分层方法能够提供比传统的简单随机抽样更为精确的准确度估计。
Jun, 2024