带部分信息的在线学习小损失界

Nov, 2017

Small-loss bounds for online learning with partial information

Thodoris Lykouris, Karthik Sridharan, Eva Tardos

TL;DR研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题，在黑盒模型下能够获得如上小损失的概率，而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用，并且能够提供一些之前无法获得的最优保证。

Abstract

We consider the problem of adversarial (non-stochastic) online learning with partial information feedback, where at each round, a decision maker selects an action from a finite set of alternatives. We develop a b

online learning partial information feedback regret bounds semi-bandits contextual bandits

发现论文，激发创造

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

组合半弦臂算法的一阶遗憾上界

本文研究了在线组合优化问题中的半盲反馈，提出了一种优化算法来减少期望后悔。该算法以 L_T * 的平方根为增长率，在部分反馈方案中首次实现了此类保证，并在组合设置中首次实现了此类保证。

Feb, 2015

反馈图的在线学习：超越赌博机

研究在线学习问题中的反馈问题，证明反馈图的结构控制引起的学习难度，并给出了三个类别的反馈图的理论极限表现和影响。

Feb, 2015

具有时序反馈图的对抗在线学习

基于分区策略，本研究提出了一种新的学习算法，用于预测与专家建议的问题并同时受限于反馈图结构，证明对于传递反馈图，该算法可以高效实现且达到最优遗憾界（与一个常数因子定量相近）的预测性能优化。

Jun, 2024

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

关于具备反馈图的在线学习的最小化后悔算法

本文针对具有强可观测无向反馈图的在线学习问题，在回报上下界方面进行了改进，并使用 FTRL 与 q-Tsallis 熵对结果进行了证明；同时扩展了该技术应用于时间变化图的情形，并提供了适用于所有 alpha>1 的改良下界。

May, 2023

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

反馈图网络在线学习：损失函数的真实形态

本论文主要介绍了一种基于反馈图的顺序学习问题，提出了一个名为 problem complexity 的新概念，并创建了一个既定算法，实现了对此设置的最小化失望度量的最优解。

Jun, 2023

组合式预测游戏的极小化策略

我们研究了在线线性优化问题，探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量，并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案，并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。

May, 2011

组合赌博机与相对反馈

本文围绕多项式逻辑选择模型，研究了在线学习中集合选择的组合优化问题及其相关算法，并通过实验验证了理论结果。

Mar, 2019