OSOM: 一种用于多臂和线性上下文赌博机的同时最优算法
本研究开发了多种高效的上下文推断算法,为非平稳环境提供了有效的解决方案,具有动态适应分布变化的能力,同时通过对各种标准回归进行分析,证明了在时间和空间成本上都能达到最优的效果。
Aug, 2017
该研究讨论了非参数上下文赌博问题,研究了函数的Hölder类和光滑度参数β之间的插值关系,提出了一种新算法,能够调整到各种光滑度设置,并通过确立匹配的上下限证明其遗憾是速率最优的,从而弥合了现有文献关于参数和非可区分性情境赌徒问题,以及仅使用全局或本地信息的赌徒算法之间的差距,同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。
Sep, 2019
本文研究了上下文多样性对随机线性情境赌博机的影响,提出了LinUCB-d算法并分析其遗憾性能,理论结果表明,在多样性上下文的假设下,LinUCB-d的期望累积遗憾被一个常数限制,改善了以往对LinUCB的理解并加强了其性能保证。
Mar, 2020
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。
May, 2022