在线分层采样的最小化区间数目在给定噪音样本的情况下
在独立样本的基础上,通过多项式逼近构建最优估计器并证明了最小均方误差与自然对数的平方存在关系,进而推导出最小样本量与以 K 为底的对数的比例成正比的一般规律.
Jul, 2014
本文提出了 kl-UCB ++ 算法,用于在具有指数分布族的随机赌博机模型中实现遗憾最小化,并证明了其同时渐近最优(按 Lai 和 Robbins 的下限界定)和极小化最优。这是第一种证明同时具有这两个性质的算法,因此将两种不同的研究方向合并在一起,并提供了简单明了的证明。
Feb, 2017
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
本文提出了一种分层抽样算法,其中在每个分层进行的随机抽样用于自适应修改各分层进一步抽样的比例,这些比例收敛于方差减少的最佳分配,我们的分层估计器渐近正态,渐近方差等于最小方差,数值实验证实了算法的效率。
Nov, 2007
在策略分类中,我们研究了在一次性场景下未知响应的策略分类问题,通过最小化最坏情况下的风险来确定最优的分类器,并提出了高效的算法以及对于成本函数的双范数正则化的重要性。
Nov, 2023
我们提出了一种新的主题模型估计方法,可以从观察到的数据中估计出主题数量 K,并在任意文档数量、单个文档长度、字典大小和主题数量的情况下实现了最小极小值下限和最新的上限估计。同时,在模拟研究中我们展示了这种新算法比现有的算法更快更准确。
May, 2018
本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计,使用逼近理论法进行估计,实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架,该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计,从而进一步证明了估计在样本 n 的情况下是最优的,并且基本上相当于 MLE 使用 nlnn 个样本进行估计。
Feb, 2015
本文详细研究了在保持从统计学家隐藏数据的严格设置中概率分布(离散和连续)的估计,给出了这些本地私有设置中估计的尖锐最小极限速率,展示了隐私和收敛速率之间的根本权衡,以及提供允许沿隐私 - 统计效率连续体移动的工具。我们结果的一个后果是,华纳关于随机响应的经典工作是进行调查抽样并保持受访者隐私的最佳方法。
May, 2013