本文以延迟反馈形式的一般化线性赌博机作为研究对象,通过设计乐观的算法,使得其失效惩罚与决策次数无关,从而大幅提高了现有研究中最优遗憾界的表现。
Jul, 2022
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
本研究开发了一种乐观的在线学习算法,不需要参数调整,在延迟反馈下具有最佳的后悔保证,支持实时气象预测,同时通过引入乐观提示来减少延迟造成的代价,并应用于气候子季节预测任务中,相对于现有模型具有低后悔。
Jun, 2021
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 AdaGrad 风格的版本的算法,该算法通过观察到的 (延迟的) 损失进行适应,而不仅仅是适应于累积延迟 (该算法要求先验上限)。
Oct, 2020
研究在线学习中的非约束非子模最小化问题,并提出了一种基于梯度下降算法的解决方案,其中考虑了非子模函数特殊结构和成本的时滞,证明了算法在静态和延迟情况下的遗憾保证。
May, 2022
在在线顺序决策的领域中,我们利用在线凸优化(OCO)框架解决带有延迟的问题,其中决策的反馈可能会有未知的延迟。我们提出了三类基于近似解的延迟算法,以处理不同类型的接收反馈。我们提出的算法多功能且适用于通用范数,在每种算法类型下给出了相应的遗憾界限。我们通过具体示例展示了每种算法在不同范数下的效率,并且理论结果在标准设置下与当前最佳界限一致。
Feb, 2024
该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题,并开发了应对这种情况下的延迟探索、利用和指数迭代(DEXP3)和延迟赌博梯度下降(DBGD)算法。通过统一的分析框架,证明了 DEXP3 和 DBGD 算法的性能优越。
Jul, 2018
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
May, 2024
连续时间模型中,我们提出了在线学习问题的连续时间算法,并给出了最优遗憾界的简明证明。
该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS,并通过实验验证了其性能,其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。