超越二次函数的强盗控制紧速率
本文探讨了在带有巴氏反馈或者没有梯度知识下的凸随机优化问题。我们通过精确表征强凸平滑函数的性能以及非凸平滑函数的性能下界,证明了在这两种情况下,所需的查询次数至少要实现二次比例尺度关系。我们同时还发现对于二次函数,即使在没有梯度信息的情况下,也可以在平方次的询问内实现 O(1/T) 的误差率。此结果是在派生式随机情况下的首次结果,并且在之前暗示相反的情况下,依然成立。
Sep, 2012
本文研究的是带有动作切换代价的敌对多臂赌博机问题,证明了在该问题下玩家T回合的最小極大后悔度为~Θ(T^2/3),并研究了其他在线学习领域的开放问题,结果得到了一个多尺度随机游走的新随机化结构,该结构对如此困难的学习问题证明可能会有所帮助。
Oct, 2013
定义了一种新的算法家族,用于对抗性多臂赌博问题,并提供基于凸平滑的简单分析技术。通过使用 Tsallis 熵进行正则化,证明了它的最小极大后悔度为 Θ(√TN);同时,对于具有有界危害率的微扰分布,广泛类的扰动方法可获得近乎最优的后悔率,低至 O(√TN log N),例如 Gumbel、Weibull、Frechet、Pareto 和 Gamma 分布都满足此特性。
Dec, 2015
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独立学科领域的一个难点。
Aug, 2020
研究用Online Mirror Descent 框架的各种新技术,包括改进的多尺度专家算法、从一般随机最短路径到特殊无环情况的降低、倾斜的占用度量空间以及添加到成本估计器的新校正项等,以解决带对手成本的随机最短路径问题并同时减小学习者方差和最优策略的偏差。
Dec, 2020
探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案,其算法达到了最优遗憾度
May, 2023
本文研究带有约束的赌博性凸优化问题,在部分信息的损失函数下,学习者旨在生成一系列决策,使得累计损失减少,同时累计违约累积也在减少。我们采用累计硬约束违反作为约束违反的指标,并提出了一种基于罚函数的近端梯度下降方法,能够在凸损失函数和时变约束下实现次线性增长的遗憾和累计硬约束违反界限。
Oct, 2023
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为κ-凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在gradu2020non和sun2023optimal中提出的一个开放问题,即完全敌对噪声模型下的赌博LQR/LQG问题。最后,我们证明了BCO与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个T^{2/3}遗憾界的下界。
Feb, 2024
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
Feb, 2024