- 机器学习与统计方法在时间序列预测中的比较:大小有关
本研究论文探讨时间序列预测领域,发现机器学习方法虽然在极小样本量时预测性能较简单统计方法差,但随着样本量的增长,机器学习方法逐渐优化预测性能。
- 最小二乘插值和核的有限下降和受限低等距
本文研究了复制内核希尔伯特空间中数据最小范插值的风险,并发现了这些插值在样本大小方面的非单调性。文中还针对相应的内核提出了新的估计和泛化保证。
- 有关算法子采样的计量经济学视角
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以 - 在亚线性数据范围内估计可学习性
针对模型类如何拟合标记数据的问题,我们提出了一种计算学习能力的方法,可以使用较小的数据量得出精确结果。该方法也适用于二元分类问题,并在多种真实和合成数据集上得到了验证。
- 随机优化的自适应采样策略
本论文提出了一种随机优化方法,该方法通过自适应地控制梯度近似计算中使用的样本量来减少方差,使用内积测试来决定增加样本量,并通过逻辑回归问题的数值实验验证了该算法的有效性。
- 交叉验证失败:小样本导致大误差
通过交叉验证误差条的实验结果,揭示了采用预测模型 (例如生物标志物或方法开发) 进行认知神经影像研究时,由于样本数导致的误差范围大约为 ±10%,并且这种误差经常被低估,而且常常会削弱研究结论的可靠性。因此,需要探索扩大样本量的解决方案,并 - ICMLPriv'IT:私密且样本高效的身份验证
本研究利用差分隐私方法进行小样本假设检验,以得出隐私参数、准确性参数和错误要求等信息,实现在保证样本大小和错误率时的差分隐私保护
- MM少于一次迭代:随机控制的随机梯度下降法
研究表明,我们开发并分析了一种基于梯度的优化过程,我们称之为随机控制随机梯度(SCSG)。作为 SVRG 算法集合中的一员,SCSG 利用了两个尺度上的梯度估计,在快速尺度上的更新次数受到几何随机变量的控制。与大多数现有算法不同,SCSG - 具有高效性、稳健性的对数凹分布恰当学习
本文讨论了单变量对数凹分布的鲁棒适当学习问题,并提出了一种能够有效解决该问题的算法,该算法可以获得信息理论最优的样本量,并具有多样的应用。
- 逐步学习 -- 自适应样本大小学习
研究如何动态增加有效样本大小,以在较小样本量情况下利用低方差的算法达到统计准确性,其中包括了机器学习、随机梯度下降、方差缩减方法等关键词。
- 始终有效推论:将序列分析引入 A/B 测试
本研究提出一种始终有效的 p-value 和置信区间定义方法,以允许用户在进行 A/B 测试时不断地监控样本大小并快速利用已有数据时提供有效的统计推断。同时,该模型还允许实现基于用户定制的修改测试,适当地权衡了样本大小和功率之间的关系,提供 - 聚类的表示学习:一个统计框架
本文提出一种协议,将用户提供的较小的数据样本进行聚类,并在此基础上建立一个数据表示方法,通过此方法学习聚类表征,并分析其统计样本复杂度,以及线性嵌入诱导的表征类的 VC 维,从而可以学习成功地学习具有有限 VC 维的表征类。
- 字典学习中 ITKM 算法的收敛半径和样本复杂度
本文通过迭代阈值和 K-means 算法展示了,只要初始化在收敛半径内,即在动态范围的倒数 $\log K$ 因子内,样本量与 $K\log K\tilde \varepsilon^{-2}$ 成比例,就可以从带噪声的 $S$ 稀疏信号中恢 - 样本协方差矩阵与实际协方差矩阵的接近程度有多高?
给定一个 n 维非白色协方差分布,研究如何选择样本容量 N 以保证在算子范数下具有固定的精度估计协方差矩阵。猜测所有有限四阶矩的分布的最优样本容量为 O (n),这得到了证明 (带有对数迭代因子)。
- 重新审视维数灾难:在规模非常大的系统中粒子滤波器的崩溃
本文研究了在具有高维系统的状态空间模型背景下,蒙特卡罗方法(通过样本集合进行近似)可能失败的现象,并证明了在一些较弱的假设下,样本集合的最大权重会随着系统维度的增加而收敛于一,特别地,如果样本集合的大小在系统维度的立方根中呈亚指数增长,则该 - Monte Carlo 检验序列的统一有界重采样风险实现
本文提出了一种可以使用 Monte Carlo 模拟计算 t 检验 p-value 的无限制顺序算法,能够保证重抽样风险的均匀有界性,是实现需要(重新)抽样的检验标准的理想选择。
- 密度估計中的下界和聚合
本文通过对 M 个密度估计器进行聚合过程来证明其最优性,并针对 KL 距离、Hellinger 距离和 L1 距离类型的模型选择估计器证明了下限,其中 KL 距离的下限可以通过 Yang (2000) 等人建议的在线估计获得。这些结果的结合