具有确定性演化状态的赌博机

Jul, 2023

Bandits with Deterministically Evolving States

Khashayar Khosravi, Renato Paes Leme, Chara Podimata, Apostolis Tsorvantzis

TL;DR我们提出了一种在考虑确定性演变和不可观测状态下进行强化学习的模型，其核心应用领域是推荐系统和在线广告学习，通过在算法选择的每一轮中考虑行为的短期奖励和系统的 “健康” 程度（即由其状态衡量），来计算奖励；该模型可适应不同演变速率 λ，旨在最小化与最佳固定选择序列相比的遗憾度。

Abstract

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call Bandits with Deterministically evolving states. The workhorse applications

learning with bandit feedback recommendation systems online ads evolving states regret rates

发现论文，激发创造

自适应遗憾在可能的情况下：只需两个查询

在线优化中，给出了强适应遗憾的准确查询和遗憾最优的贪心算法，同时给出了多臂赌博机和赌博凸优化的最优算法，并通过实证研究表明了在不稳定环境和下游任务中的卓越表现。

Jan, 2024

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

学习在非稳态下进行优化

介绍了一种新的非平稳线性随机赌博算法，应用于动态定价和广告分配领域，并使用滑动窗口 UCB 算法实现了最优动态后悔上界。

Oct, 2018

具有时延依赖收益的随机赌博机

提出了一个非平稳随机 bandit 模型及其评估算法，对比了该算法和 UCB 方法的优越性，从而能够有效地解决音乐推荐中的问题。

Oct, 2019

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

关于不安分马尔科夫赌博机的遗憾界限

本文介绍了一种算法来解决不安分的马尔科夫赌臂问题，并证明了基于指数的策略在这个问题中一定是次优的。该算法可以在不需要假设马尔可夫链除了不可约的任何情况下，经过 T 步后实现相对于知道所有赌臂分布的最佳策略的 O (√T) 的悔恨。

Sep, 2012

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010

一种带有演化操作的赌博机方法进行模型选择

该研究论文将模型选择问题视为无限臂赌博机问题，通过部分训练（资源分配）选择模型，准确率作为奖励，最佳模型与最终选择模型之间的期望准确率差异作为遗憾，提出了一种基于进化算法的新型组合方法 Mutant-UCB，通过在三个开源图像分类数据集上的测试，证明了其相对于固定预算的超出先进技术的相关性。

Feb, 2024