该研究提出了在线线性优化问题的带有 bandit 反馈的算法,并使用 Mirror Descent 算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略,证明了计算上以及最小二乘上的结果优化,为输出结果减少了冗余的符号。
Feb, 2012
通过 von Neumann 最小极大定理,我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了,在这种对抗性环境中,最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关:它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释,因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式,我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界,而提供了对抗者的明确最优策略的下界。
Mar, 2009
以信息论为基础,改进探索性分布以在零阶对抗性 bandit 凸优化的 minimax regret 的信息理论上界上证明其为 O (d^{2.5} 根号 n 对数 (n)),并提高 Bubeck 等人 (2017) 的 O (d^{9.5} 根号 n 对数 (n)^{7.5} 上界。
May, 2020
本文针对具有强可观测无向反馈图的在线学习问题,在回报上下界方面进行了改进,并使用 FTRL 与 q-Tsallis 熵对结果进行了证明;同时扩展了该技术应用于时间变化图的情形,并提供了适用于所有 alpha>1 的改良下界。
May, 2023
研究专家建议的预测问题,设计了迄今为止首个最小化后悔的最小极大算法,通过随机微积分的思想并考虑一个连续问题的模拟来解决。
Feb, 2020
通过研究新颖的偏尾分析技巧,我们在随机设计的线性预测和相关问题上考虑最小化期望风险。我们发现,当每个样本所代表的统计杠杆得分在高斯设计时是最小的。我们通过控制经验过程的 PAC-Bayes 技术扩展了 Oliveira 的分析。
Dec, 2019
该研究分析了离散分布估计问题,并提供了最大风险和最小极小风险的上下界,进而得出在特定条件下最大风险极小风险的渐近性能。通过该研究可得出在经验分布估计中的渐近最大风险和最小极小风险,并且通过对概率分量估计确定了渐近最小极小风险。
Nov, 2014
关于随机设计回归模型的统计学习研究,我们提出了一种聚合经验最小值的方法,并建立了其风险的尖锐 Oracle 不等式,进一步证明了在良好规定的模型下,统计估计和在错误规定的模型下的统计后悔的速率等价的结论。
Aug, 2013
本文考虑了一个带有高斯回报和信息反馈的序贯学习问题,并提供了非渐近的问题相关下界和算法来实现这些下界。
Oct, 2015
本研究证明了一个新的 minimax 定理,将贝叶斯最坏情况遗憾和没有对手信号或决策的 minimax 遗憾联系起来。进而推广 Russo 和 Van Roy (2016) 的信息论工具,证明了多种部分监视设置的 minimax 遗憾边界。其中最突出的是对 ' 非退化简单 ' 和' 困难 ' 有限部分监控的清晰分析,提供了独立于任意大的游戏相关常数的新遗憾约束。该研究还通过证明对于 k 武装对手贝叶斯遗憾最多为 sqrt {2kn},提高了现有成果 2 倍的 minimax 遗憾界,进一步展示了推广机器的能力。最后,我们提供了警察和流氓游戏的简单分析,也提高了最好已知的常数。
Feb, 2019