- 凸光滑函数的动态遗憾
本文提出了一种在线凸优化算法,该算法在非稳态环境中表现出优异的动态后悔表现,通过充分利用流畅性条件,能够在动态后悔中代替对 T 的依赖,而采用问题相关的数量:损失函数的梯度变化、比较序列的累积损失和前两个 term 的最小值,从而使问题的复 - 非平稳环境中的策略优化动态遗憾
本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++,并建立了它们的动态后悔保证。
- 强凸平滑函数动态遗憾的改进分析
本文介绍了一种改进的 OMGD 算法动态遗憾值分析方法,证明了在一般的环境非静态情况下,该算法的遗憾值可以达到最好的三种保证之一,比以前的结果更紧凑。
- 非平稳广义线性赌博机算法
本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法,以解决在非静态环境下的上下文在线学习和塞德利反馈问题,这些结果表明这些算法在一般的情境序列下,并且存在突然变化时具有高概率的上限置信度边界,证明结果的形式为时间 T 内的 d^2 - 同时最小化动态遗憾和适应性遗憾
本文提出了一种在线学习算法,能同时最小化动态遗憾和自适应遗憾,具有更强的理论保证。
- AAAI在线最小二乘及其拓展问题中平衡静态与动态遗憾
本文研究递归最小二乘算法中的遗忘因子对在线牛顿算法动态后悔的影响,对于指数凸和强凸目标,算法可实现动态后悔的界限,同时提出一种用于强凸函数的梯度下降步长规则以获得更高的计算效率。
- 非静态环境下的臂匠凸优化
探讨了分布不稳定的环境下,采用动态遗憾作为衡量标准的医生凸优化问题,并提出了一种新的算法,在不需要预知路径长度情况下,可以分别实现 $O (T^{3/4}(1+P_T)^{1/2})$ 和 $O (T^{1/2}(1+P_T)^{1/2}) - 基于线性动力学和预测的在线最优控制:算法及遗憾分析
研究了具有时间变化凸阶段成本的在线最优控制问题,设计了利用有限的梯度计算的 RHGC 算法,证明了其动态遗憾随着前瞻窗口大小的指数级下降,并利用线性二次跟踪问题提供了任何在线算法的动态遗憾的基本限制,最后用数值测试证明了 RHGC 算法在线 - 一种新的非平稳情境赌博算法:高效、最优和免参数
提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法,通过引入回放阶段来保持对非平稳的探索,并在探索和开发之间保持良好的平衡。
- 动态环境下的自适应在线学习
本文研究动态环境下的在线凸优化问题,通过提出一种自适应学习的方法 Ader,利用专家跟踪算法结合一组专家来最小化动态遗憾,并扩展到可用于表征比较器的动态模型序列的情形。
- MM学习在非稳态下进行优化
介绍了一种新的非平稳线性随机赌博算法,应用于动态定价和广告分配领域,并使用滑动窗口 UCB 算法实现了最优动态后悔上界。
- 具备预测和转换成本的在线优化:快速算法和基本极限
本文研究了具有有限预测窗口和附加决策切换成本的在线优化问题。提出了两种基于梯度的在线算法:RHGD 和 RHAG。该文章报告了这些算法的动态遗憾的上限,并且发现我们的基于梯度的 RHAG 算法是一种接近最优的在线算法。
- 在非平稳随机环境中追踪最优专家
研究了多臂赌博机和专家问题在非稳态随机环境下的动态遗憾。通过引入度量整个损失分布在 T 轮过程中的统计方差的新参数 Lambda,研究了这一数量对遗憾的影响。我们考察了 Lambda 与 Gamma(计算分布更改的次数)以及 Lambda - 一种动态网络资源分配的在线凸优化方法
该论文探讨了在线凸优化涉及敌对损失函数和敌对约束的情况,开发了一种修改的在线鞍点(MOSP)方案,并在动态网络资源分配任务中进行了应用,证明了其相对于梯度方法的性能优势。
- 非退化函数的改进动态遗憾
本文介绍了一种通过多次查询函数梯度并减弱强凸性条件来优化在线学习器性能的方法,并引入了比路径长度更小的平方路径长度作为比较序列的新规则。
- ICML追踪缓慢移动的预知者:真实梯度和噪声梯度下的在线学习最优动态遗憾
本研究关注在线凸优化的动态遗憾,通过探索称为路径变化的时间变化机制,提出了一些动态遗憾改进的变差上限,并证明他们在已有的下限条件下是最优的。
- 动态环境下的在线优化:强凸问题改进遗憾率
本文提出一种基于在线梯度下降方法的动态调参算法,以降低动态遗憾(dynamic regret),进而优化强凸且未知动力学的损失函数。