本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法,实现了与后记中的最佳响应之间亚线性的最小化值的竞争。
Oct, 2020
研究在线 Hilbert 空间中的线性优化算法,提出了一种新的最小化最大算法,推导出两种情况下的遗憾界,并使用正态近似作为关键分析工具。
Mar, 2014
通过最小值极大分析推导出在线学习算法来应对困难的学习问题,利用本地顺序 Rademacher 复杂性与相关算法实现更快速的在线学习,并引入随机化方法以及其他的方法来完善算法性能。
Apr, 2012
本文研究了无约束在线线性优化博弈中最小化后悔的算法,其中对于一个有界比较器集合,得到了该博弈的解及其渐进行为,同时针对更宽松的惩罚函数提出了相应的算法并得到了渐进解。
Feb, 2013
本文介绍了一种基于 Hedge 算法且用于决策论在线学习的新方法 —— 自适应设置学习率,该方法在最坏情况下保证了最优表现,但在简单的情况下可以达到更小的错误率。除此之外,本文还提供了一项仿真研究,以比较自适应设置学习率方法与现有方法的优劣。
Oct, 2011
提供了一种基于漂移博弈框架内的极小极大分析的在线学习算法设计通用机制,通过转换不同的在线学习场景为不同的漂移博弈场景,应用一系列松弛技巧解决
Jun, 2014
本文介绍了在线学习的基本概念和现代在线凸优化的视角,并针对凸丢失,在欧几里得和非欧几里得环境中介绍了一阶和二阶算法。同时,还特别关注了算法参数调优和在无界域上的学习,并介绍了对非凸损失的处理方法和信息缺失的决策问题中的多臂赌博机问题。
Dec, 2019
研究一种基于连续时间的在线优化策略族,证明其能够达到无遗憾学习。从传统的离散时间角度来看,这种方法可导出大量离散时间算法(包括一些经典遗憾分析算法)的无遗憾性质,并统一了许多经典的遗憾上界,得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。
Jan, 2014
介绍了一种基于 Lagrangian hedging 的在线算法(包括 regret-matching 和 hedge),通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化,并给出了相应的性能界限。
Jan, 2021
研究专家建议的预测问题,设计了迄今为止首个最小化后悔的最小极大算法,通过随机微积分的思想并考虑一个连续问题的模拟来解决。
Feb, 2020