带预测内容的在线强盗学习
本研究探讨了一种基于可实现性假设下的上下文强化学习问题,并提出了一种新算法——回归器消除,证明了其在保证可实现性前提下,也具有与不可实现性假设情况相似的遗憾率;同时在任意一组策略的情况下,我们证明了本算法具有恒定遗憾,相对于之前的方法而言。
Feb, 2012
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效, 定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术, 并将这一结果扩展到其他遗憾变体。
Jun, 2012
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
提出了一种简单的上下文Bandit算法族,该算法族可以通过当有证据表明错配错误导致遗憾增加时返回良好的安全策略来适应错配误差,而不需要像在线或约束回归神谕一样更健壮的神谕。
Feb, 2021
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
本文探讨了如何在low noise的情况下, 通过logarithmic loss和triangular discrimination达到contextual bandits问题中的first-order guarantees,取得了很好的效果和结果
Jul, 2021
研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为CAP的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。
Mar, 2023