无界上下文分布的上下文赌博机
本研究开发了多种高效的上下文推断算法,为非平稳环境提供了有效的解决方案,具有动态适应分布变化的能力,同时通过对各种标准回归进行分析,证明了在时间和空间成本上都能达到最优的效果。
Aug, 2017
本文使用代理损失函数导出了新的后悔界限和新的算法,其中借助于坡道损失函数,我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类,使用铰链损失函数,导出了一种有效的算法,并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下,本研究的结果也可以得出经典的后悔边界。
Jun, 2018
该研究讨论了非参数上下文赌博问题,研究了函数的Hölder类和光滑度参数β之间的插值关系,提出了一种新算法,能够调整到各种光滑度设置,并通过确立匹配的上下限证明其遗憾是速率最优的,从而弥合了现有文献关于参数和非可区分性情境赌徒问题,以及仅使用全局或本地信息的赌徒算法之间的差距,同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。
Sep, 2019
我们设计了一种渐近上限最优算法,并充分利用线性结构和精确探索,从而减少了在多种合理情境下的失算,数值结果表明,与其他基准算法相比,我们的方法大大减少了失算。
Oct, 2019
本文基于Neu等人引进的抬升信息比率,研究Thompson Sampling算法在情境赌博问题中的性能,并证明了李环境参数和历史的互信息的综合界限,并提出适用于亚高斯奖励子集的抬升信息率新界限,推广了Neu等人的研究,最后为无结构有界情境赌徒、带有拉普拉斯似然函数的结构有界情境赌徒、有界线性情境赌徒和结构性伯努利赌徒提供了明确的后悔界限。
Apr, 2023
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024