不可能的调整变得可能:一种新的专家算法及其应用
该研究提出了在线线性优化问题的带有bandit反馈的算法,并使用Mirror Descent算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略,证明了计算上以及最小二乘上的结果优化,为输出结果减少了冗余的符号。
Feb, 2012
提供了乐观镜面下降算法的几个应用:将其用于线下优化中的镜像近端算法、扩展到 Holder 平滑函数、并将结果应用于鞍点问题;将其用于有限零和矩阵博弈中,为两个强耦合玩家提供最小化最大值均衡的渐进速率 O((log T)/T);再考虑问题的部分信息版本并将结果应用于凸规划,展示了近似最大流问题的简单算法。
Nov, 2013
本文设计并分析了一种不需要任何上限或下限的在线线性优化算法,实现了适应损失向量范数的缩放不变性,并且通过FTRL和MD元算法实现了最优遗憾,并为无界决策集开发了一种非真空遗憾绑定的自适应算法,并对基于MD的无标度算法在无界域上的下限进行了研究。
Jan, 2016
研究预测问题与专家意见,基于对抗原语构建算法并实现较好的下界,其中 Classic Multiplicative Weights 算法也实现了最小化参数的效果
Jul, 2016
本文通过引入新的后悔分解和Bregman散度的泛化来对在线学习的两个算法进行分析,得出了较为简洁的结论,提出了对于复合目标的算法,并提供了一种细化的算法族。
Sep, 2017
本文探讨了如何学习可以预测或选择推迟下游专家决策的预测器。我们提出了一种基于学习分类器和拒绝器的过程,并理论分析了其效果。该方法基于一种新颖的成本敏感学习算法,我们给出了一种一致的代理损失函数。本文还通过各种实验验证了我们方法的有效性。
Jun, 2020
本文研究一种在线线性优化问题,其中学习者在每一轮进行决策之前可以访问K个'暗示'向量。本文设计了一种算法,可以在存在带有成本向量正相关性的K个暗示的凸组合时获得对数后悔,这显著扩展了以前只考虑K=1情况的相关工作。为了实现这一点,我们开发了一种方法,将许多任意OLO算法组合起来,以实现后验情况下最小后悔的对数更差因素,该结果独立地具有利益。
Oct, 2020
本文提出了一种元学习策略,通过最小化后悔界来学习在线学习的初始化和步长,以及exponentially weighted aggregation 的先验分布或学习率,并进行了后悔分析,以确定元学习是否确实改进了每个单独任务的学习效果。
Feb, 2021
我们提出了一项关于使用多个专家进行学习推迟的代理损失和算法的研究,并证明了这些代理损失从强大的$H$-一致性上获益。我们通过几个实际代理损失的例子阐述了分析的应用,并给出了明确的保证。虽然这项工作的主要焦点是理论分析,但我们还报告了在SVHN和CIFAR-10数据集上的若干实验结果。
Oct, 2023