在线神经回归的上下文强化学习

Dec, 2023

Contextual Bandits with Online Neural Regression

Rohan Deb, Yikun Ban, Shiliang Zuo, Jingrui He, Arindam Banerjee

TL;DR使用神经网络在在线回归任务和相关神经上下文盲目策略中展示了新的调整方法以减小后悔并通过实验证明其性能优于现有算法。

Abstract

Recent works have shown a reduction from contextual bandits to online regression under a realizability assumption [Foster and Rakhlin, 2020, Foster and Krishnamurthy, 2021]. In this work, we investigate the use o

发现论文，激发创造

带代理损失的上下文自适应赌博机：边界与高效算法

本文使用代理损失函数导出了新的后悔界限和新的算法，其中借助于坡道损失函数，我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类，使用铰链损失函数，导出了一种有效的算法，并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下，本研究的结果也可以得出经典的后悔边界。

Jun, 2018

超越ucb: 具有回归预测器的最优和高效上下文臂算法

本文提出了一种将上下文强化学习转化为在线回归问题的算法；该算法可以在泛型函数类上实现最小化风险，并且与以前的结果相比，它不需要任何分布假设，即使在敌对性上下文的情况下也可以工作。

Feb, 2020

绕开怪物：一种更快、更简单的实现环境下上下文二项式算法

该论文考虑了具有普适性假设的（随机性）上下文赌博问题，设计了一种快速、简单的算法，在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化，解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明，离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。

Mar, 2020

高效的一阶上下文臂状多臂老虎机：预测、分配和三角矩阵判别

本文探讨了如何在low noise的情况下, 通过logarithmic loss和triangular discrimination达到contextual bandits问题中的first-order guarantees，取得了很好的效果和结果

Jul, 2021

无悔的神经上下文赌博机

提出了基于神经网络的算法 (NN-UCB) 来解决序列决策中的上下文强化学习问题，证明了该算法的后悔值可以和使用 NTK-UCB 算法等价。

Jul, 2021

离线神经情境臂: 悲观、优化和泛化

本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Nov, 2021

通过扰动奖励学习神经上下文强化学习

利用扰动更新神经网络，消除显式探索和计算开销，可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限，是一种高效且有效的神经自适应算法。

Jan, 2022

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

对抗语境强化学习的核化方法

通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中，我们提出了一种计算有效的算法，该算法利用一种新的对损失函数进行乐观偏差估计的方法，在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。

Oct, 2023

高效上下文强化学习与不完全信息反馈图

通过在线回归将参数图学习与无信息判定相结合，该研究开发了第一个可用于无信息设置的情境算法，并证明使用对数损失可以获得有利的后悔保证。

Feb, 2024