高斯回报与侧面观测的在线学习

Oct, 2015

Online Learning with Gaussian Payoffs and Side Observations

Yifan Wu, András György, Csaba Szepesvári

TL;DR本文考虑了一个带有高斯回报和信息反馈的序贯学习问题，并提供了非渐近的问题相关下界和算法来实现这些下界。

Abstract

We consider a sequential learning problem with gaussian payoffs and side information: after selecting an action $i$, the learner receives information about the payoff of every action $j$ in the form of Gaussian o

sequential learning gaussian payoffs side information regret algorithms

发现论文，激发创造

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

非稳态环境下具有昂贵特征的在线学习

在顺序决策问题中，我们扩展上下文奖励设置并允许智能体观察功能状态的子集，以同时最大化长期平均收益并在有限时间内保证减少。

Jul, 2023

未知马尔可夫博弈中的在线学习

本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法，实现了与后记中的最佳响应之间亚线性的最小化值的竞争。

Oct, 2020

带部分信息的在线学习小损失界

研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题，在黑盒模型下能够获得如上小损失的概率，而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用，并且能够提供一些之前无法获得的最优保证。

Nov, 2017

带有侧面信息的 MDPs 在线学习

本文提出了一种在线学习算法，使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题，该算法可以在计算效率上得到提升，并且在此设置下的后悔度最多为 O (√T)。

Jun, 2014

未知协同收益游戏中无悔学习

本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW，通过运行 MW 方法获得最佳效果，同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。

Sep, 2019

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

带边观察的赌徒问题

探讨传统的两臂赌博问题的扩展，其中决策者在选择拉动哪个手臂之前可以访问一些信息，在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。

Jan, 2005

组合式预测游戏的极小化策略

我们研究了在线线性优化问题，探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量，并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案，并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。

May, 2011