基于学习的亚线性时间支持估计
本文提出了一种基于采样技术和新的乘性更新算法的新颖子线性时间逼近算法,可用于解决一些机器学习优化问题,如训练线性分类器和查找最小包含球,此外,还用于解决一些核化版本的这些问题,如SVM等。此外,文章还在半流数据流设置中给出了实现,实现了第一个低通多项式空间和次线性时间算法。
Oct, 2010
本文提出了一种高效的基于变宽直方图的密度估计算法,通过使用该算法对来自 $p$ 的独立同分布采样,可以输出一个分段常数概率密度函数作为假设分布,并且在样本规模和运行时间上达到最优,其中总变差距离满足一定的误差限制。
Nov, 2014
本文提出了一种区分学习框架,它在区间大小预算约束下,优化预期错误率,以构建归纳批处理中的预测区间。通过专注于预期误差,我们的方法允许条件错误率的变异性,这可以提高整体准确性或者减少平均区间大小。虽然我们考虑的问题是回归型的,但我们使用的损失是组合型的,这使我们能够提供PAC样式的有限样本保证。
Oct, 2017
针对模型类如何拟合标记数据的问题,我们提出了一种计算学习能力的方法,可以使用较小的数据量得出精确结果。该方法也适用于二元分类问题,并在多种真实和合成数据集上得到了验证。
May, 2018
用机器学习技术改进估计频率的算法,特别是使用了重要元素预测的算法,在一些参数范围内以及加入重要元素预测后,理论上超越了之前算法的性能,并在实验中取得了优于其他方法的表现。
Dec, 2023
对于限定的数据量,我们研究了算法评估与比较的理论极限,发现在黑盒测试下无法客观评价算法性能,除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单,只需要保留一组验证数据即可。同样地,我们探讨了算法稳定性假设是否足以解决问题,结果发现只有在高稳定性范围内,模型才能基本无差别。最后,我们还针对多个算法的比较问题也得出了类似的理论困难。
Feb, 2024
确定一个足够大的样本大小以估算数据驱动的子组中的条件反事实期望,将问题转化为同时推断问题并与固定的样本大小预算相关联,以逆推可行的治疗方案数量或分区复杂度。
Mar, 2024
本文解决了滑动窗口频率估计中的一种特定问题,提出了通过预测和过滤未来到达时间较长的项目来提高算法效果的创新方法。研究表明,该方法显著改善了内存与准确率之间的权衡,具有重要的实际应用价值。
Sep, 2024