带有长期回报的随机情境赌博机
该研究讨论了非参数上下文赌博问题,研究了函数的Hölder类和光滑度参数β之间的插值关系,提出了一种新算法,能够调整到各种光滑度设置,并通过确立匹配的上下限证明其遗憾是速率最优的,从而弥合了现有文献关于参数和非可区分性情境赌徒问题,以及仅使用全局或本地信息的赌徒算法之间的差距,同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。
Sep, 2019
本文研究了上下文多样性对随机线性情境赌博机的影响,提出了LinUCB-d算法并分析其遗憾性能,理论结果表明,在多样性上下文的假设下,LinUCB-d的期望累积遗憾被一个常数限制,改善了以往对LinUCB的理解并加强了其性能保证。
Mar, 2020
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。
May, 2022
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
Jul, 2022
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024