信息约束在线学习中的适应性

AAAIOct, 2019

On Adaptivity in Information-constrained Online Learning

Siddharth Mitra, Aditya Gopalan

TL;DR研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Abstract

We study how to adapt to smoothly-varying ('easy') environments in well-known online learning problems where acquiring information is expensive. For the problem of label efficient prediction, which is a budgeted

online learning label efficient prediction expert advice bandit feedback partial monitoring games

发现论文，激发创造

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

本文提出一种在线学习算法 BanditQ，基于队列理论和在线学习相结合，实现公平在线预测，并在信息完整的情况下，达到目标约束，同时实现 $O (T^{3/4})$ 的损失率。

Apr, 2023

带部分信息的在线学习小损失界

研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题，在黑盒模型下能够获得如上小损失的概率，而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用，并且能够提供一些之前无法获得的最优保证。

Nov, 2017

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

高效使用近似算法的在线线性优化

本文讨论在线线性优化问题，考虑可行操作集通过近似线性优化预言机具有 α 乘性逼近保证的情况，给出了新算法并提出了显著改进甚至多项式对数的预言机复杂度，同时得到了常数 c>0 的 alpha 遗憾界。

Sep, 2017

在线学习与不完美提示

本文提出了一种算法来处理在线学习问题，该算法能够提高在线参与者的表现并创造出令人惊讶的后果，同时也是前人算法的改进。

Feb, 2020

未知分布的高效混合在线学习

我们提出了一种适用于未知特征生成过程的混合在线学习的、高效的预测方法，证明了该方法可在有限的 VC 类中实现具有次线性的遗憾上限，并在具有 α fat-shattering 维度的类中实现具有次线性的遗憾上限。此外，我们拓展了我们的结果到具有 K 个变化的分布转移场景，并为具有有限策略集合 H 和未知分布的 i.i.d. 生成的上下文以及敌对生成的成本的情境 K 臂赌博机建立了遗憾上限。

Jan, 2024

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

在线标签偏移：最优动态遗憾遇见实用算法

本文提出了一种基于在线回归算法的解决方法，旨在解决标签分布在线变化时的监督式和非监督式学习问题，实现了动态固定遗憾，取得了比较好的实验结果。

May, 2023

通过强适应在线学习改进在线置信预测

研究在线情况下的不确定性量化问题，提出新的自适应后悔最小化算法用于在线共形预测，证明了该方法实现了近似最优的自适应后悔和适当的预测覆盖，同时在时间序列预测和图像分类等实际任务上对现有方法具有明显的优势。

Feb, 2023

反馈图的在线学习：超越赌博机

研究在线学习问题中的反馈问题，证明反馈图的结构控制引起的学习难度，并给出了三个类别的反馈图的理论极限表现和影响。

Feb, 2015