adversarial multi-armed bandit | BriefGPT

关键词adversarial multi-armed bandit

搜索结果 - 6

无标度对抗强化学习
该研究探讨了马尔可夫决策过程中的无标度学习问题，提出了一个通用的算法框架（SCB），并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架，从而实现了无标度对抗性多臂赌博机的首个鲁棒（最小化）期望遗憾上界和首个高概率遗憾上界，并产生了第一
PDF4 months ago
ICLR自动转移：学习路由可转移表示
本文提出了一种新颖的对抗多臂赌博方法，自动学习将源表示路由到适当的目标表示，进而以有意义的方式结合这些表示以产生准确的目标模型，适用于小数据应用。
PDF2 years ago
对抗性多臂老虎机中的延迟和数据的适应
本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 Ada
PDF4 years ago
批处理赌博机的遗憾界
本文提出了一种简单有效的算法来解决批处理随机多臂赌博机和线性随机多臂赌博机问题，这些算法能够通过只使用对数数量的批次实现最优期望遗憾界，此外，文章还首次研究了批处理对抗性多臂赌博机问题，并发现了任何算法的最佳遗憾界（对数因子除外）的预定批处
PDF5 years ago
多臂赌博机中的稀疏性、方差和曲率
研究了在线学习理论，特别是有限反馈情况下的敌对多臂赌博和线性赌博设置，并解决了几个关于算法存在优势遗憾边界的开放性问题，得出某些情况下的优势遗憾边界。
PDF7 years ago
带切换成本的赌博机：T ^ {2/3} 遗憾
本文研究的是带有动作切换代价的敌对多臂赌博机问题，证明了在该问题下玩家 T 回合的最小極大后悔度为～Θ(T^2/3)，并研究了其他在线学习领域的开放问题，结果得到了一个多尺度随机游走的新随机化结构，该结构对如此困难的学习问题证明可能会有所帮
PDF11 years ago