连续对抗波段的遗憾分析
本文研究了 K-armed dueling bandit 问题,提出了一种受 Deterministic Minimum Empirical Divergence 算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。
Jun, 2015
本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题,设计了能够有效解决此问题的算法,证明了算法的最优性,并进行了大量模拟和与其他算法对比的实验。
Nov, 2021
研究了非协同凹性博弈中以赌徒反馈为学习手段的长期行为,证明了采用镜像下降算法的不懊悔学习算法在满足标准单调性条件下能以概率 1 收敛于 Nash 均衡,并推导出了其收敛速率的上界。
Oct, 2018
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3}),同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024
本文研究了针对在线内容推荐中的比较对策问题的两类后悔概念,提出了一种新算法 Winner Stays,并在模拟和实际数据方面进行了实验,结果显示 WS 算法在弱后悔和强后悔方面都显著优于现有算法。
Jun, 2017
本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔,探讨了决策者在不同反馈条件下的最优反悔幅度,并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案,获得了半强盗情形的最优界限,同时也证明了在线组合优化基准算法的次优性。
Apr, 2012
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022