非凸在线学习中的本地遗憾
本研究探讨了一类广泛问题的在线可学性,并将其扩展到远超过外部遗憾的性能评估简单规范。我们的框架同时捕捉了其他著名规范,例如内部和一般Phi规范、学习使用非加性全局成本函数、Blackwell的可挑战性、预测者的校准、自适应遗憾等。我们展示了在所有这些情况下的可学习性归因于控制相同的三个量:马田哥小定理收敛项、如果已知未来则能够表现良好的能力描述项、以及顺序Rademacher复杂性的概括,该复杂性在(Rakhlin, Sridharan, Tewari, 2010)中得到研究。由于我们直接研究问题的复杂性,而不是专注于高效算法的开发,因此我们能够改进和扩展许多已知结果,这些结果之前是通过算法构造推导出来的。
Nov, 2010
本文研究在线学习算法的稳定性及其对可学性(有限后悔)的影响,提出了一种称为“前向后悔”的新指标,用于测量在线学习算法的预测性能,证明了对于在线优化问题,稳定性等价于后悔有界,且有界前向后悔等价于有界后悔,在分析现有算法的可学性方面提供了一个简单的方法。
Nov, 2012
本文研究了在线学习中基于动态后悔度的参考解决方案的变化以及静态后悔度参考解决方案的时间保持不变的差异,证明了基于在线梯度的近端算法是动态后悔度的最优算法。
Oct, 2018
通过建立连续在线学习(COL)这种新的设置,连续轮次中在线损失函数的梯度会随着学习者的决策而连续变化,我们可以更完整地描述许多有趣的应用,特别地,证明了满足单调EPs(经济平衡问题)能够在COL中实现子线性的静态遗憾。 由此得出的启示是,我们提供了实现子线性动态遗憾的有效算法的条件,即使选择的损失在先验变化预算中没有适应性。 此外,我们还展示了一个从动态遗憾到静态遗憾和相关EP(经济平衡问题)收敛的COL之间的简化,从而允许我们分析许多现有算法的动态遗憾。
Feb, 2019
使用先进的证明技术和Zinkevich-style动态遗憾最小化框架,本研究提出了一个强适应的在线学习算法,其总变化控制下的动态遗憾为O(n^(1/3)*C_n^(2/3)),并且可以扩展到局部自适应非参数回归问题中。
Apr, 2021
本文提出了一个新的在线凸优化框架,能够利用过去的决策历史对当前损失进行建模,并引入了“p有效内存容量”来量化过去决策对当前损失的最大影响。在此框架下,证明了一些政策遗憾的较好上界,并展示了该框架对于各种在线学习任务的适用性。
Oct, 2022
在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念,我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法,改进了传统的非自适应算法,即使用固定学习率的梯度下降算法。具体而言,我们的理论保证不需要任何除了凸性之外的结构假设,该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测,我们进一步展示了这些好处,它是一个具有集合成员决策的下游在线学习任务。
Feb, 2024
引入并研究了AMDP的新变体,该变体旨在最小化后悔同时利用一组成本预测器并开发了一种新的策略搜索方法,可在高概率下实现亚线性的乐观后悔界限。
May, 2024