- KDDDISCO: 个性化折扣分配的端到端赌博框架
使用 DISCO 框架将上下文赌博算法与整数规划相结合,以实现个性化折扣码分配,并且通过离线分析和在线 A / B 测试验证了其在提高平均购物篮价值方面的显著改进。
- 理解预训练变压器在序贯决策中的训练和泛化
本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性 - 面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在 - 零膨胀臂
对于稀疏非零奖励的赌博机实际应用,本文引入了零膨胀赌博机的研究,将奖励模型化为经典的半参数分布,设计了适用于各种奖励分布的 UCB 和 TS 算法,并利用理论和实验研究验证了其超出一般 sub-Gaussian 假设的性能表现能达到速率最优 - 强健性多臂赌博机算法对错误假设的鲁棒性研究
对于参数化赌博机和上下文赌博机,我们确定了一些充分条件,取决于问题实例和模型类别,在这些条件下,经典算法(如 ϵ-greedy 和 LinUCB)在甚至严重错误的奖励设定下,也能够在时间范围内实现亚线性(sublinear)的后悔保证,这与 - 互动和集中的差分隐私对于赌博机
通过交互式差分隐私的视角,研究了具有可信中心决策者的隐私问题以及与之相关的 bandit 算法和后悔。
- 一种改进的延迟反馈赌博机算法
通过控制分布漂移和跳过过大延迟的观测,提出了一种新的在可变延迟反馈下进行抽头算法,该算法改进了先前工作并在两个领域提供更紧密的遗憾界限,同时基于未处理观测的计数而不是延迟或最大延迟来估算复杂度。
- 医生对口罩使用的结论:有用但需辩证看待
本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果,将这种算法应用于上下文、图和表马尔科夫决策过程中。
- 语音和语言处理中的强化学习与赌博算法:教程,评论与展望
本文综述了最近在强化学习和赌博算法方面的最新进展,并讨论它们如何被有效地使用来解决语音和自然语言处理问题,以建立具有适应性、互动性和可扩展性的模型。
- 线性混合 MDP 的高效无界强化学习算法
该研究论文提出了第一个计算高效、无横向界限算法,其中采用了加权最小二乘法,以用于未知状态转移动态的估算,并能够应用于异构线性 bandits 中,达到了比已知算法更优的效果。
- 核和神经赌博中的纯探索
本文研究了一种新的纯探索选择策略,通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误,成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。
- ICML高斯过程赌博机中的宽容后悔和良好动作识别
研究了松弛优化条件下高斯过程逐步优化中的概率波段问题,提出了一些新的算法,证明了其上限,并为其提供了一些具有算法独立性的下限,此外还考虑了寻找单个 “良好行动” 的实际问题,并在此基础上提出了几种能比标准优化方法更快地找到 “良好行动” 的 - 贝叶斯最佳臂识别的固定置信度保证
研究 Thompson Sampling 在 bandit 问题中的应用,提出一种新的取样规则 Top-Two Transportation Cost (T3C),结合贝叶斯停止规则进行采样复杂度分析,并给出 bandit 问题中 Gaus - MaxGap Bandit:适应性算法用于近似排名
本文研究自适应地从 K 个分布(臂)中抽样,以确定任意两个相邻均值之间的最大差距,即最大间隙赌博机问题。作者提出消除与 UCB 风格的算法,并证明了它们是极小化的最优解。实验结果表明,UCB 风格的算法需要的样本数量比非自适应抽样少 6-8 - 在线赌博游戏聚类算法的改进
本研究提出了一种在线聚类的赌博算法,通过允许用户频率的非统一分布,并使用简单的集合结构来表示聚类,提出了一种更有效的算法,并证明了该算法的遗憾界可以不考虑用户的最小频率。在合成和真实数据集的实验中,新算法相对于现有方法具有一定的优势。
- 有限未知估值的动态定价
本文提出了针对动态定价情况下买家分组的拍卖模型,通过对分布无关和分布相关情况进行分析,得到了买家估价分布的上下界,提出了一种上界近似算法,并给出了其退化情况的解法。
- Matroid Bandits: 快速组合优化与学习
通过结合 bandit 和 matroid 的思想,本篇论文提出了一种新型组合赌博算法 ——matroid bandits,它的目标是在 matroid 中最大化一个随机的初始未知的模块化函数,并提供了一种切实可行的算法 —— 乐观 mat