在线神经回归的上下文强化学习
本文使用代理损失函数导出了新的后悔界限和新的算法,其中借助于坡道损失函数,我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类,使用铰链损失函数,导出了一种有效的算法,并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下,本研究的结果也可以得出经典的后悔边界。
Jun, 2018
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本文探讨了如何在low noise的情况下, 通过logarithmic loss和triangular discrimination达到contextual bandits问题中的first-order guarantees,取得了很好的效果和结果
Jul, 2021
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。
Nov, 2021
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非常复杂的问题,因为策略依赖于嘈杂的上下文观察。
Jul, 2023
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Oct, 2023