对抗环境学习的高效算法

Feb, 2016

Efficient Algorithms for Adversarial Contextual Learning

Vasilis Syrgkanis, Akshay Krishnamurthy, Robert E. Schapire

TL;DR该论文提出了用于对抗环境下上下文相关强化学习问题的第一种Oracle有效的亚线性后悔算法，分析了两个场景，其中一个是传递式场景，另一个是小分离器设置

Abstract

We provide the first oracle efficient sublinear regret algorithms for adversarial versions of the contextual bandit problem. In this problem, the learner repeatedly makes an action on the basis of a context and r

发现论文，激发创造

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

基于oracle的对抗性情境赌博算法的改进遗憾界

提出了一种基于oracle的算法来应对敌对情境下的赌博问题，该算法在访问离线优化Oracle并且享有$O((KT)^{\frac{2}{3}}(\log N)^{\frac{1}{3}})$的遗憾度的情况下是计算有效的，其中K是操作的数量，T是迭代次数，N是基线策略的数量。

Jun, 2016

带代理损失的上下文自适应赌博机：边界与高效算法

本文使用代理损失函数导出了新的后悔界限和新的算法，其中借助于坡道损失函数，我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类，使用铰链损失函数，导出了一种有效的算法，并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下，本研究的结果也可以得出经典的后悔边界。

Jun, 2018

使用交叉学习的上下文策略带

本研究提出了一种解决上下文相关性及跨上下文学习问题的算法，可在拍卖等有战略设置中实现更高性能的结果。

Sep, 2018

针对对抗性线性情境赌博机的高效稳健算法

针对经典$K$-armed线性上下文对抗性问题，我们开发了基于Exp3算法的计算有效算法，其中包含实时算法和鲁棒算法，它们能够实现良好的失望保证，并且对于线性奖励函数而言具有稳健性。

Feb, 2020

通过扰动奖励学习神经上下文强化学习

利用扰动更新神经网络，消除显式探索和计算开销，可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限，是一种高效且有效的神经自适应算法。

Jan, 2022

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023

绕过模拟器：近似最优的对抗线性情境赌博机

通过实现无需模拟器的多项式时间算法，我们在拥有线性上界误差的情况下，提高了对抗性线性上下文赌博问题的表现，实现了近乎优化的后悔度，同时保持了计算效率。

Sep, 2023

一种改进的用于Oracle-Efficient Adversarial Contextual Bandits的松弛方法

我们提出了一种对抗情境下上下文弛豫的方法，其中上下文是从已知分布中顺序独立抽取的，并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行O(K)次调用，有一个遗憾界限为O(T^（2/3）(Klog(|Pi|))^（1/3）)，这是首次改进了Syrgkanis等人在2016年NeurIPS会议上获得的 O((TK)^（2/3）(log(|Pi|))^（1/3）) 最佳界限，也是第一次与Langford和Zhang在2007年NeurIPS会议上为随机情况获得的原始界限相匹配。

Oct, 2023

一种层次最近邻方法用于背景环境下的Bandits

在这篇论文中，我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题，但当比较器策略的决策边界附近存在许多上下文时，会出现高度的后悔。本文中，我们通过设计一种算法来解决这个问题，可以在计算后悔项时排除任何一组上下文。我们的算法基于《带有强化学习反馈的最近邻》的算法，因此具有极高的计算效率。

Dec, 2023