情境随机赌博问题中的模型选择
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
该文章提出了一种简单的模型选择方法,用于解决随机赌博和强化学习问题,并通过平衡算法的候选遗憾边界,以及淘汰违反其候选边界的算法来消除算法,从而证明该方法的总遗憾由最佳候选遗憾边界的一个乘性因子限制。
Dec, 2020
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。
May, 2022
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022
提出一种算法来解决具有图反馈和一般函数空间的随机情境赌博问题,该算法适应底层图结构和奖励差距,为这种随机情境设定提供了一个依赖于差距的上界,改进了遗留问题,并通过数值实验验证了计算效率和 regret 上界的有效性,推动了具有图反馈的随机情境赌博领域的发展。
Aug, 2023