自适应对冲
研究了在线随机环境下的 Hedge 算法行为,证明了降低学习率的任何时候版本,能够同时适应较容易的随机问题和顶峰问题,并与其他变体算法的表现有质的差异,最终讨论了该算法的局限性和 Stochastic 情况下双重遗憾边界带来的改进。
Sep, 2018
介绍了一种基于 Lagrangian hedging 的在线算法(包括 regret-matching 和 hedge),通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化,并给出了相应的性能界限。
Jan, 2021
本文聚焦于大量行动决策问题的决策理论在线学习(DTOL)。我们提出了一种全新无需参数的算法用于 DTOL,这解决了在线学习因无法在实际中优化设定学习率参数的困境。此外,我们引入了一种新的错误度量标准,该算法可以在此标准和以前的标准下实现优异的表现,接近以前有优化参数的最佳预算。
Mar, 2009
在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念,我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法,改进了传统的非自适应算法,即使用固定学习率的梯度下降算法。具体而言,我们的理论保证不需要任何除了凸性之外的结构假设,该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测,我们进一步展示了这些好处,它是一个具有集合成员决策的下游在线学习任务。
Feb, 2024
本研究考虑在线学习算法在对抗环境中可以保证最坏情况下的后悔率,而在有利的随机环境下能够自适应地表现良好,并通过 Bernstein 条件量化随机环境的友好程度,证明了两种最近的算法自适应于随机环境的 Bernstein 参数,并证明这些算法在其各自的环境中都具有快速的期望和高概率率。
May, 2016
该论文提出了一种新的 “元” 算法,可以在在线学习环境中实现算法的快速适应,该算法对于同样时间复杂度的其他算法而言具有更好的强适应性后悔边界,并且在专家建议的学习及度量学习方面表现优异。
Nov, 2017
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效,定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术, 并将这一结果扩展到其他遗憾变体。
Jun, 2012
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019
该论文提出了一种普遍框架,用于研究在线学习框架下的自适应遗憾界限,包括模型选择界限和数据相关界限;该框架基于顺序复杂度量的修正,并使用单侧尾不等式来界定此界限,并在线性优化和在线 PAC-Bayes 定理中进行了实例化。
Aug, 2015