利用规范化权重函数改进多臂赌博机的奖励条件策略

Jun, 2024

利用规范化权重函数改进多臂赌博机的奖励条件策略

Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions

Kai Xu, Farid Tajaddodianfar, Ben Allison

TL;DR通过使用归一化权重函数来通过边缘化奖励构建策略的技术，改进了 reward-conditioned policies 并使其在具有大动作空间和稀疏奖励信号的挑战性多臂赌博问题上表现出优越性能。

Abstract

Recently proposed reward-conditioned policies (RCPs) offer an appealing alternative in reinforcement learning. Compared with policy gradient methods, policy learning in RCPs is simpler since it is based on superv

reward-conditioned policies reinforcement learning multi-armed bandit generalized marginalization normalized weight functions

发现论文，激发创造

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

一种基于安全强化学习的权重变化模型预测控制方法用于自动驾驶车辆运动控制

基于深度强化学习的多目标贝叶斯优化模型预测控制中，在运行过程中，通过限制强化学习动作空间在安全学习空间内，选择最优离散动作，并根据上下文选择相应的优化权重集合，使得未经训练的强化学习模型表现出安全且最优的性能，实验结果表明，训练后的模型展现了超越 Pareto 前沿的性能。

Feb, 2024

具有一般奖励函数的组合多臂赌博机

本文研究了随机组合多臂赌博机框架，提出了一种名为 SDCB 的新算法，该算法估计底层随机变量的分布和它们的随机显著性置信区间，并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾，并将所得结果应用于 $K$-MAX 问题。

Oct, 2016

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

具有修剪的隐式归一化线性和非线性重尾多臂赌博机预测器

本文提出了基于裁剪的隐式归一化预测器用于重尾分布奖励的多臂老虎机问题，在奖励分布方面假设温和的条件下，得到了收敛性结果，并且对于线性和非线性重尾随机 MAB 问题是最优的，相对于最佳两个世界算法，该算法通常表现更好。

May, 2023

基于背包的预算受限多臂赌博机最优策略

对于受预算限制的多臂赌博机问题，本论文提出了两种拉动策略 KUBE 和分数 KUBE，并证明了两种策略的遗憾具有对数上限，且这个上限是渐近最优的。

Apr, 2012

组合多臂老虎机问题的批量独立遗憾界

针对组合多臂赌博机问题中的非线性奖励函数和批处理选择，引入一种新的平滑度标准 —— 基尼加权平滑度，证明了现有算法中的线性后悔量与批大小的关系可以被该平滑度参数取代，并在概率最大覆盖问题中获得了明显的精度提高。

May, 2019

适用于非政策评估的极大极小权重和 Q 函数学习

本文探讨了强化学习中的离线评估问题，提出了两种新的重要比率估计器，并给出了样本复杂度分析和渐进优化等结果。

Oct, 2019

面向有约束 MDPs 的无痛政策优化

研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题，提出了一种泛化的原始 - 对偶框架，用于评估算法表现，实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度，以及并非像其他方法一样需要超参数调整，并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。

Apr, 2022

连续处理的政策评估与优化

扩展了离散治疗的反倾斜权重和双重稳健方法，使用了一个利用治疗接近程度的核函数来衰减拒绝采样，缓解了样本拒绝问题，可应用于持续的治疗问题，通过个性化给药数据集的案例研究，得到了比基准更好的策略推荐结果。

Feb, 2018