带有强盗反馈的随机凸优化
本文探讨了在带有巴氏反馈或者没有梯度知识下的凸随机优化问题。我们通过精确表征强凸平滑函数的性能以及非凸平滑函数的性能下界,证明了在这两种情况下,所需的查询次数至少要实现二次比例尺度关系。我们同时还发现对于二次函数,即使在没有梯度信息的情况下,也可以在平方次的询问内实现 O(1/T) 的误差率。此结果是在派生式随机情况下的首次结果,并且在之前暗示相反的情况下,依然成立。
Sep, 2012
研究了随机多臂赌博问题中期望奖励是武器的Lipschitz函数的情况,提出了两种算法OSLB和CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。
May, 2014
本文介绍了一种基于梯度估计器的简单算法,可以在convex Lipschitz函数方面实现带有两个反馈信息的bandit convex optimization和带有两个函数评估的zero-order stochastic convex optimization问题的最优解,同时在比之前的算法更加简单的前提下可以扩展到非欧几里得问题。
Jul, 2015
本文针对带有随机反馈的在线凸优化问题(称为bandit convex optimization),通过将椭球法应用于在线学习,给出了第一个$\tilde{O}(\sqrt{T})$-regret算法,并引入了离散凸几何中的新工具。
Mar, 2016
本文提出了kl-UCB ++算法,用于在具有指数分布族的随机赌博机模型中实现遗憾最小化,并证明了其同时渐近最优(按Lai和Robbins的下限界定)和极小化最优。这是第一种证明同时具有这两个性质的算法,因此将两种不同的研究方向合并在一起,并提供了简单明了的证明。
Feb, 2017
本文研究了在线凸优化的问题,在该问题中,决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法,易于实现。第二个算法结合了椭圆体方法和中心点装置,对于回合数实现了(几乎)最优的后悔界限。据我们所知,这是在在线凸博弈问题中首次尝试解决风险规避问题。
Oct, 2018
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为κ-凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在gradu2020non和sun2023optimal中提出的一个开放问题,即完全敌对噪声模型下的赌博LQR/LQG问题。最后,我们证明了BCO与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个T^{2/3}遗憾界的下界。
Feb, 2024
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
Feb, 2024