学习覆盖：在线学习和优化与不可逆决策

Jun, 2024

Learning to Cover: Online Learning and Optimization with Irreversible Decisions

Alexandre Jacquillat, Michael Lingzhi Li

TL;DR通过限制在线学习和优化策略的探索次数，将不确定性减少为最低程度，从而最小化成本并实现覆盖目标。

Abstract

We define an online learning and optimization problem with irreversible decisions contributing toward a coverage target. At each period, a

发现论文，激发创造

研究一种基于连续时间的在线优化策略族，证明其能够达到无遗憾学习。从传统的离散时间角度来看，这种方法可导出大量离散时间算法（包括一些经典遗憾分析算法）的无遗憾性质，并统一了许多经典的遗憾上界，得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。

Jan, 2014

该论文提出了一种面向在线学习的反向优化算法框架，设计了一种隐式更新算法用于处理噪声数据，并证明其具有统计一致性。实验表明，该算法具有很高的精度和鲁棒性，并且在计算效率上比批量学习更具优势。

Oct, 2018

连续时间模型中，我们提出了在线学习问题的连续时间算法，并给出了最优遗憾界的简明证明。

May, 2024

本文提出了一种算法来处理在线学习问题，该算法能够提高在线参与者的表现并创造出令人惊讶的后果，同时也是前人算法的改进。

Feb, 2020

本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法，实现了与后记中的最佳响应之间亚线性的最小化值的竞争。

Oct, 2020

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

本文介绍了在线学习的基本概念和现代在线凸优化的视角，并针对凸丢失，在欧几里得和非欧几里得环境中介绍了一阶和二阶算法。同时，还特别关注了算法参数调优和在无界域上的学习，并介绍了对非凸损失的处理方法和信息缺失的决策问题中的多臂赌博机问题。

Dec, 2019

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

研究在线情况下的不确定性量化问题，提出新的自适应后悔最小化算法用于在线共形预测，证明了该方法实现了近似最优的自适应后悔和适当的预测覆盖，同时在时间序列预测和图像分类等实际任务上对现有方法具有明显的优势。

Feb, 2023