本篇研究针对在线贝叶斯赌博场景下的学习问题,提出了两条新算法:Exp4.P 用于竞争N个专家,经过实证测试有效性;VE 用于竞争VC-dimension为d的无限策略集合,此两种算法均能降低遗憾值并为上下文赌博场景提供监督学习型保证,实现了对往期算法保证的优化。
Feb, 2010
该论文提出了用于对抗环境下上下文相关强化学习问题的第一种Oracle有效的亚线性后悔算法,分析了两个场景,其中一个是传递式场景,另一个是小分离器设置
Feb, 2016
本文使用代理损失函数导出了新的后悔界限和新的算法,其中借助于坡道损失函数,我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类,使用铰链损失函数,导出了一种有效的算法,并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下,本研究的结果也可以得出经典的后悔边界。
Jun, 2018
本研究提出了一种解决上下文相关性及跨上下文学习问题的算法,可在拍卖等有战略设置中实现更高性能的结果。
Sep, 2018
本文研究了上下文多样性对随机线性情境赌博机的影响,提出了LinUCB-d算法并分析其遗憾性能,理论结果表明,在多样性上下文的假设下,LinUCB-d的期望累积遗憾被一个常数限制,改善了以往对LinUCB的理解并加强了其性能保证。
Mar, 2020
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
本文探讨了如何在low noise的情况下, 通过logarithmic loss和triangular discrimination达到contextual bandits问题中的first-order guarantees,取得了很好的效果和结果
Jul, 2021
考虑对抗性线性上下文赌博机设置,文中给出了一种新的算法,通过利用与不需要上下文设置的线性赌博机的新联系,利用连续指数权重算法在概率单形上的一个截断版本来获得结果,并证明了其结果优于最坏情况下的后悔,特别的当环境相对温和时,考虑了上下文的密度是对数凹的情况,给出了一种同时优于二阶和一阶损失的方法。
May, 2023
在文中,我们解决了Balseiro等人提出的“交叉学习”设置中的上下文强盗算法设计问题,通过提供一个高效算法,其拥有几乎紧密(除对数因子外)的减悔上界O(TK),与上下文数量无关。作为结果,我们得到了对于在未知值分布下学习进行首价拍卖出价和具有随机行动集合的睡眠强盗问题的几乎紧密减悔上界。我们的算法核心是一种协调学习算法在多个时期的执行的新技术,以消除对于未知分布的估计和算法执行的动作之间的相关性。这种技术对于涉及对未知上下文分布进行估计的其他学习问题可能具有独立的意义。
Jan, 2024
本文解决了无界上下文的非参数上下文赌博机问题,填补了现有研究在这一领域的空白。提出了两种结合UCB探索的最近邻方法,其中第二种方法通过自适应选择邻居数量,达到了大部分情况下的最优后悔界限,为无界上下文的在线决策提供了有效的解决方案。
Aug, 2024