无投影随机凸优化
本文提出一种基于条件梯度法的 projection-free 的算法,通过线性优化预测每一轮的动作并达到了 $O (T^{3/4})$ 的预期最小化损失 (expected regret)。
Oct, 2019
探讨了分布不稳定的环境下,采用动态遗憾作为衡量标准的医生凸优化问题,并提出了一种新的算法,在不需要预知路径长度情况下,可以分别实现 $O (T^{3/4}(1+P_T)^{1/2})$ 和 $O (T^{1/2}(1+P_T)^{1/2})$ 的动态遗憾.
Jul, 2019
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为 κ- 凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在 gradu2020non 和 sun2023optimal 中提出的一个开放问题,即完全敌对噪声模型下的赌博 LQR/LQG 问题。最后,我们证明了 BCO 与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个 T^{2/3} 遗憾界的下界。
Feb, 2024
本文针对带有随机反馈的在线凸优化问题(称为 bandit convex optimization),通过将椭球法应用于在线学习,给出了第一个 $\tilde {O}(\sqrt {T})$-regret 算法,并引入了离散凸几何中的新工具。
Mar, 2016
在线凸优化中,考虑具有对抗性时变约束的情景,在这种情况下,行动必须相对于固定约束集是可行的,同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法,通过线性优化预言机(LOO)访问这个集合来保证在一个长度为 T 的序列上,通过总共 T 次对 LOO 的调用,相对于损失函数产生的后悔为 $ ilde {O}(T^{3/4})$,对于约束的违反是 $O (T^{7/8})$(忽略除了 $T$ 以外的所有量)。尤其地,这些边界适用于序列中的任何区间。我们还提出了一种更高效的算法,它仅需要对软约束进行一阶预言机访问,并在整个序列上获得类似的边界。我们将后者扩展到了强化学习的场景,并在期望上获得了类似的边界(作为 $T$ 的函数)。
Feb, 2024
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
Feb, 2024
研究了涉及亚指数噪声的无约束在线凸优化问题,设计了一种新的巴拿赫空间参数自由 OCO 算法 BANCO(Betting on Noisy Coins),证明了其具有最优的性能表现,并将其应用于局部随机梯度下降算法以及多次对数定律的应用。
Feb, 2019