本文探讨了一种对抗性在线学习情境,其中决策者可以在每个阶段选择一个行动,并观察到给定行动的奖励,同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法,这些算法依赖于非平凡的图论信息反馈结构特性。
Jun, 2011
在顺序决策问题中,我们扩展上下文奖励设置并允许智能体观察功能状态的子集,以同时最大化长期平均收益并在有限时间内保证减少。
Jul, 2023
本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法,实现了与后记中的最佳响应之间亚线性的最小化值的竞争。
Oct, 2020
研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题,在黑盒模型下能够获得如上小损失的概率,而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用,并且能够提供一些之前无法获得的最优保证。
Nov, 2017
本文提出了一种在线学习算法,使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题,该算法可以在计算效率上得到提升,并且在此设置下的后悔度最多为 O (√T)。
Jun, 2014
本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW,通过运行 MW 方法获得最佳效果,同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。
Sep, 2019
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019
本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
探讨传统的两臂赌博问题的扩展,其中决策者在选择拉动哪个手臂之前可以访问一些信息,在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。
Jan, 2005
我们研究了在线线性优化问题,探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量,并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案,并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。
May, 2011