基于核 $ε$-Greedy策略的情境赌博机
提出一种新的算法解决在无导数情况下的$adversarial convex bandit$ 问题,其包含了核方法、伯努利卷积的一般化和新的退火时间表。这个算法在要求多次迭代的场景中可以取得佳效果。
Jul, 2016
本文提出了两种基于高斯过程的算法-改进的GP-UCB(IGP-UCB)和GP-Thomson采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。
Apr, 2017
我们考虑在具有Matern核的再生核希尔伯特空间(RKHS)中优化函数的问题,该核的光滑度参数为ν,域为[0,1]^d,在带有噪声的强化学习反馈下,我们提出了第一个实用的算法,即π-GP-UCB算法,对于所有ν> 1和d≥1都具有保证的子线性遗憾。经验证明,与其前身改进的GP-UCB相比,性能更好,计算可扩展性大大提高。
Jan, 2020
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
本论文中,我们解决了在contextual bandit问题中噪声被confounder影响的问题,引入了潜在的confounder,并且应用了双重工具变量回归来解决reward function估计中的偏差问题,设计出基于理论保障的计算效率高且regret-optimal的算法。
Sep, 2022
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
Feb, 2023
研究了在核化赌博机问题中,在未知正则性的情况下学习算法是否能够自适应于相关核函数的正则性。通过研究转化不变核的正则性自适应性,我们推导出自适应性的下限,证明不可能在具有不同规则性的RKHS对中同时实现最优累计遗憾。通过连接在不同功能空间中自适应的统计困难性,我们展示了这一下限的紧密性。
Apr, 2023
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Oct, 2023
本研究解决了在无限期平均奖励强化学习中,利用核岭回归预测期望价值函数的相关问题。提出了一种乐观的算法,并在核函数建模假设下建立了新的无遗憾性能保证。此外,研究还推导出了一种新的信心区间,用于核基预测在不同强化学习问题中的应用。
Oct, 2024