基于数据驱动的悔恨平衡在线模型选择策略
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效, 定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术, 并将这一结果扩展到其他遗憾变体。
Jun, 2012
本研究调查和综合了在线统计学习范例——称为多臂赌博机的领域,作为在线实验的某一类资源。我们首先探讨了传统的多臂赌博机的随机模型,然后探讨了复杂模型的分类模式,针对每种模型的复杂性与实验设计背景下的特定要求或考虑进行了说明。最后,我们提供了所有研究算法已知上限遗憾表格的决策工具,为未来理论工作提供了两方面的视角。
Oct, 2015
研究如何在随机环境中进行赌徒模型选择,提出一种基于元算法的方法,可以与一般类别的基本算法和不同类型的对抗性元算法一起使用,同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。
Mar, 2020
该文章提出了一种简单的模型选择方法,用于解决随机赌博和强化学习问题,并通过平衡算法的候选遗憾边界,以及淘汰违反其候选边界的算法来消除算法,从而证明该方法的总遗憾由最佳候选遗憾边界的一个乘性因子限制。
Dec, 2020
本研究提出了一种新的算法,用于解决上下文Bandit问题中的模型选择问题,该算法通过离线模型选择预言机的方式平衡偏差-方差交换和探索-利用交换,并具有与回归模型选择相同的计算要求。
Jun, 2021
在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法,这些算法可以在数据自适应的情况下进行探索,并提供模型选择保证。
Nov, 2021
本文研究带有嵌套策略类别的赌场情境中的模型选择问题,旨在获得同时具备敌对和随机(“双赢”)的高概率遗憾保证。我们的方法要求每个基本学习器都带有可能或不可能持续的候选遗憾边界,同时,我们的元算法根据保持基本学习器的候选遗憾边界平衡的时间表播放每个基本学习器,直到它们被发现违反了保证。我们开发了谨慎的误规范测试,专门设计用于混合上述模型选择标准和利用环境(可能是良性)性质的能力。我们恢复了CORRAL算法在敌对环境下的模型选择保证,但在嵌套敌对线性赌徒的情况下,具有实现高概率遗憾边界的额外优势。更重要的是,我们的模型选择结果同时在间隙假设下在随机环境中保持。这些是第一个在(线性)赌徒情况下,在进行模型选择的情况下实现双赢(随机和敌对)保证的理论结果。
Jun, 2022
本文研究了多臂赌博问题中适应因果结构的问题,探讨了条件性有利结构和任意环境中学习性能的权衡关系,并通过将问题转化为线性赌博设置,首次获得了因果赌博的实例相关界。
Jul, 2024