带有赌博反馈的非随机控制
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效, 定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术, 并将这一结果扩展到其他遗憾变体。
Jun, 2012
提出了一种新颖的算法,采用乐观性和适应性技术,结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题,并在提高先前工作的同时,取得了多种新的数据依赖性遗憾界。
Jan, 2018
开发出新的半强化学习算法,不需要先验信息,可同时在随机环境和对抗环境下获得对数级和平方级的遗憾,并通过在合成数据上的实验证明了其性能的一致性和优越性。
Jan, 2019
该研究提出了一种针对未知线性动态系统进行控制的方法,能够对抗敌意干扰和对抗凸损失功能,通过衡量后效性的最佳线性策略,实现更高效的算法,并在此设定下保证次线性的遗憾边界 T^{2/3}。
Nov, 2019
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Dec, 2019
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案,其算法达到了最优遗憾度
May, 2023
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为κ-凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在gradu2020non和sun2023optimal中提出的一个开放问题,即完全敌对噪声模型下的赌博LQR/LQG问题。最后,我们证明了BCO与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个T^{2/3}遗憾界的下界。
Feb, 2024
本研究解决了在面对对抗性扰动情况下,如何为复杂控制问题实现最佳后悔值的未解问题。论文提出了一种新算法,实现了在这种情况下的$\tilde{O}(\sqrt{T})$最优后悔值,相较于之前的$\tilde{O}(T^{2/3})$的界限有了显著提升。此算法有效克服了内存结构带来的挑战,并引入了对强凸成本的处理方法,具有广泛的应用潜力。
Oct, 2024